Типы статистических пакетов современных компьютерных технологий

Обновлено: 21.11.2024

Многим учащимся не нравится мысль о том, что им придется проводить статистический анализ. Это связано с тем, что математику и статистику часто плохо преподают в школе и почти не изучают во время обучения в бакалавриате. Далее — скажем прямо, математика и статистика концептуально сложны. Однако паниковать действительно не стоит. Доступно множество средств поддержки, которые помогут вам более комфортно проводить статистический анализ, включая этот онлайн-курс, консультантов по биостатистике, веб-сайты, учебные пособия на Youtube и даже курсы MOOC.

Существует также множество веб-сайтов, на которых можно проводить статистический анализ в Интернете. Хорошая отправная точка:

На самом деле разнообразие и количество программных пакетов и доступных веб-сайтов настолько велико, что просмотр их всех занял бы полный рабочий день!

Однако есть некоторые пакеты программного обеспечения, которые легко доступны и часто используются в UniSA, включая Microsoft Excel, SPSS, SAS, Stata и R, которые будут кратко рассмотрены здесь. Дополнительные сведения о каждом из этих пакетов предоставляются в последующих модулях.

Майкрософт Эксель

История

Это часть пакета программ Microsoft Office. Версия Excel 1.0 впервые была выпущена в 1985 году, а последняя версия — Excel 2016.

Хорошие моменты

  • Чрезвычайно прост в использовании и отлично взаимодействует с другими продуктами Microsoft.
  • Таблицы Excel могут быть прочитаны многими другими статистическими пакетами
  • Добавить модуль, являющийся частью Excel, для проведения базового статистического анализа.
  • Может создавать очень красивые графики

Плохие моменты

  • Excel предназначен для финансовых расчетов, хотя его можно использовать и для многих других целей.
  • Невозможно провести более сложный статистический анализ без покупки дорогостоящих коммерческих дополнений.

Доступность

Большинство компьютеров поставляются с уже установленным программным обеспечением Microsoft. Для компьютеров с синим покрытием (UniSA) обратитесь в службу технической поддержки, чтобы установить новейшее офисное программное обеспечение Microsoft. Для своего компьютера вы всегда можете приобрести Microsoft Office в розничном магазине.

SPSS расшифровывается как Статистический пакет для социальных наук. Это был один из первых статистических пакетов, версия 1 которого была выпущена в 1968 году, задолго до появления настольных компьютеров. Сейчас это версия 23.

Положительные моменты

  • Очень прост в освоении и использовании.
  • Можно использовать с меню или файлами синтаксиса
  • Довольно хорошая графика
  • Отлично подходит для описательной статистики, базового регрессионного анализа, дисперсионного анализа и некоторых новых методов, таких как деревья классификации и регрессии (CART).
  • Имеет собственное программное обеспечение для моделирования структурных уравнений AMOS, которое согласуется с SPSS.

Плохие моменты

  • Основное внимание уделяется статистическим методам, которые в основном используются в социальных науках, маркетинговых исследованиях и психологии.
  • Имеет расширенные процедуры регрессионного моделирования, такие как LMM и GEE, но их неудобно использовать с очень неясным синтаксисом
  • Использует несколько наиболее мощных методов, необходимых для эпидемиологического анализа, таких как анализ конкурирующих рисков или стандартизированные коэффициенты.

Доступность

SPSS доступен на компьютерах с синим покрытием (UniSA). Если его нет на том, который вы используете, обратитесь в службу технической поддержки, чтобы установить его. Сотрудникам разрешается использовать SPSS дома за 10 долларов США. К сожалению, у студентов нет прав на домашнее использование, но они могут приобрести у Hearne полную версию, которая называется Premium Grad-pack, с двухлетней лицензией примерно за 250 долларов США.

SAS расшифровывается как система статистического анализа. Он был разработан в Университете штата Северная Каролина в 1966 году, поэтому является современником SPSS.

Положительные моменты

  • Можно использовать с меню или файлами синтаксиса
  • Гораздо мощнее, чем SPSS
  • Обычно используется для управления данными в клинических исследованиях.

Плохие моменты

Доступность

Stata – это более поздний статистический пакет, версия 1 которого была выпущена в 1985 году. С тех пор он становится все более популярным в областях эпидемиологии и экономики и, вероятно, сейчас конкурирует с SPSS и SAS по количеству пользователей. Сейчас мы работаем с версией 14.

Положительные моменты

  • Можно использовать с меню или файлами синтаксиса
  • Гораздо мощнее, чем SPSS — возможно, эквивалентно SAS.
  • Отлично справляется с продвинутым регрессионным моделированием.
  • Имеет собственное встроенное моделирование структурных уравнений.
  • Хороший набор эпидемиологических процедур.
  • Исследователи по всему миру пишут свои собственные процедуры в Stata, которые затем становятся доступными для всех пользователей.

Плохие моменты

  • Сложнее изучить и использовать, чем SPSS
  • Пока нет некоторых специализированных методов, таких как CART или частичная регрессия методом наименьших квадратов.

Доступность

Статистика может быть загружена на компьютеры с синим покрытием, обратившись в службу технической поддержки. Студенты могут приобрести полную копию с бессрочной лицензией у австралийских дистрибьюторов (Survey Design and Analysis) примерно за 200 долларов. В настоящее время Отдел изучает лицензионные соглашения.

S-plus – это язык статистического программирования, разработанный в Сиэтле в 1988 году. R – это бесплатная версия S-plus, разработанная в 1996 году. С тех пор первоначальная команда расширилась и теперь включает десятки людей со всего мира. Поскольку это язык программирования и среда, он используется для предоставления программному обеспечению ряда команд, часто сохраняемых в текстовых документах, называемых синтаксическими файлами или сценариями, а не в системе на основе меню. Из-за этого его, вероятно, лучше всего использовать людям, которые уже достаточно хорошо разбираются в статистическом анализе или имеют склонность к компьютерам.

Данные, данные, данные. В современном деловом мире мы постоянно создаем и передаем огромные объемы данных. С точки зрения бизнеса доступ к такому большому количеству данных открывает множество возможностей, но как мы можем превратить данные в действие? Ответ: с помощью бизнес-аналитики. Бизнес-аналитика относится к типу решения, которое собирает и объединяет данные, создает визуализацию наборов данных, обнаруживает тенденции и идеи, скрытые в данных, и помогает пользователям принимать решения на основе данных. Существует множество подкатегорий инструментов бизнес-аналитики, ориентированных на более конкретные потребности; одним из таких инструментов является статистическое программное обеспечение.

Статистическое программное обеспечение или программное обеспечение для статистического анализа — это инструменты, которые помогают в сборе и анализе данных на основе статистики, чтобы предоставить научно обоснованное представление о закономерностях и тенденциях. Они часто используют теоремы и методологии статистического анализа, такие как регрессионный анализ и анализ временных рядов, для обработки данных.

Группа аналитиков SelectHub изучила, что в настоящее время представлено на рынке статистического программного обеспечения, и мы определили, что это пятерка лучших в своем классе.

На рынке существует множество решений, которые могут выполнять статистический анализ, поэтому может быть сложно найти то, которое соответствует вашим потребностям и наилучшим образом помогает вам в процессе принятия решений. Чтобы помочь вам выбрать лучшее статистическое программное обеспечение для вашего бизнеса, давайте подробнее рассмотрим все тонкости отрасли.

Вот что мы обсудим:

Что такое статистический анализ?

Статистический анализ – это форма количественного анализа данных. Поставщик программного обеспечения для бизнес-аналитики SAS определяет статистический анализ как «науку о сборе, изучении и представлении больших объемов данных для выявления основных закономерностей и тенденций». Как следует из названия, он использует статистику, которая представляет собой «науку, которая занимается сбором, классификацией, анализом и интерпретацией числовых фактов или данных… с использованием математических теорий вероятности».

Исследователи, специалисты по данным и аналитики могут использовать статистический анализ для:

  • Исследуйте и представляйте информацию, обнаруженную наборами данных
  • Исследуйте отношения между точками данных
  • Выявление основных тенденций и закономерностей в данных.
  • Создание и подтверждение или опровержение достоверности вероятностных моделей
  • Используйте аналитические алгоритмы, чтобы делать прогнозы на будущее.
  • Получите полезную статистику

Различные типы

В анализе данных используются два важных статистических метода: описательная и логическая статистика. Оба метода важны и дают разные результаты.

Описательная статистика – это та статистика, которая обычно приходит на ум большинству людей, когда они слышат слово "статистика". Описательная статистика относится к анализу данных, который помогает осмысленно описать или обобщить данные. Они упрощают большие объемы данных для легкой интерпретации, не делая выводов, выходящих за рамки анализа, и не отвечая на какие-либо гипотезы. Описательная статистика позволяет нам не обрабатывать данные в необработанном виде, а представлять и интерпретировать их проще.

Напротив, статистика логических выводов позволяет аналитикам проверять гипотезу на основе выборки данных, на основании которых они могут делать выводы и делать обобщения о целом. Логическая статистика пытается сделать выводы о будущих результатах за пределами доступных данных.

Для описательной статистики мы выбираем группу для изучения, измеряем всех субъектов в этой группе и описываем группу точными числами. Описательная статистика может быть полезна при рассмотрении таких вещей, как разброс и центр данных, но поскольку описательная статистика указывается в точных числах, ее нельзя использовать для более широких обобщений или выводов.

Для выводной статистики вместо этого мы начинаем с определения целевой совокупности, а затем планируем, как получить репрезентативную выборку. После анализа выборки и проверки гипотез, основанных на данных выборки, результат будет выражен в доверительных интервалах и пределах погрешности, основанных на неопределенности использования выборки, которая не может точно отражать совокупность.

Оба вида статистики лежат в основе статистического анализа, лежащего в основе статистического программного обеспечения, используемого вместе для решения бизнес-задач с помощью аналитики.

Преимущества

Статистическое программное обеспечение может помочь в бизнес-аналитике разными способами. Поскольку бизнес-аналитика — это практика сбора и анализа данных и преобразования их в полезные идеи, статистика может еще больше повысить ценность ваших корпоративных данных. Статистический анализ может дать представление о том, насколько эффективно работает ваш бизнес, и помочь вам заранее продумать модели прогнозной аналитики, основанные на исторических данных.

Статистика может быть сложной, но с правильными инструментами бизнес-аналитики это может быть очень просто.

Каковы же преимущества использования инструмента статистического анализа для бизнес-аналитики?

  • Повышает эффективность благодаря оптимизированным и автоматизированным рабочим процессам анализа бизнес-данных.
  • Возвращает более точные прогнозы на основе машинного обучения, статистических алгоритмов и проверки гипотез.
  • Простая настройка позволяет гарантировать, что программное обеспечение правильно обрабатывает данные и дает желаемые результаты.
  • Предоставляет доступ к большим базам данных, что снижает количество ошибок выборки и позволяет делать более точные выводы.
  • Позволяет уверенно принимать решения на основе данных.

Необходим анализ

При выборе программного обеспечения для сбора статистики необходимо учитывать множество факторов. «Лучший» инструмент для вас и вашего бизнеса зависит от ваших требований и того, что вы хотите делать со своими данными.

Вот несколько вопросов, на которые вы можете ответить, чтобы найти идеальное решение для вас.

Какие данные вам нужны для анализа?

Использование сложного расширенного инструмента, такого как статистическое программное обеспечение, для простых наборов данных нецелесообразно; инструменты статистического анализа лучше всего работают со сложными наборами количественных данных. Если ваши потребности в анализе менее требовательны, вам может подойти инструмент бизнес-аналитики.

Продукты, как правило, предлагают различные наборы статистических теорем и алгоритмов, но некоторым пользователям может потребоваться использовать только небольшой процент этих функций. Если у вас есть большой объем данных для анализа, вы можете инвестировать в инструмент, созданный для быстрой обработки больших наборов данных. Вам следует искать инструмент, который выполняет именно тот анализ данных, который вам нужен. Кто будет использовать этот инструмент?

Будут ли ваши аналитики экспертами, любителями или кем-то средним? Будут ли они непрерывно анализировать данные в режиме реального времени или будут проводить дополнительный статистический анализ на разовой основе в режиме самообслуживания? Являются ли они прежде всего аналитиками данных или учеными?

Ваше программное обеспечение для статистического анализа должно соответствовать потребностям человека, который его использует, поэтому обязательно выберите пакет, который делает именно то, что нужно вашему пользователю.

Насколько легко им пользоваться?

Статистический анализ отнюдь не прост, и многие статистические программные платформы могут быть запутанными и совершенно непонятными для обычного пользователя. Некоторые инструменты также имеют более высокую кривую обучения, чем другие, что затрудняет их освоение. После рассмотрения того, кто будет использовать этот инструмент, определите, каков их уровень опыта работы со статистикой.

Эксперты по обработке данных будут чувствовать себя как дома, обрабатывая числа с помощью уравнений и языков программирования, но начинающие пользователи могут чувствовать себя перегруженными программным обеспечением, представленным в этом формате, и предпочитают использовать более знакомый интерфейс на основе меню.

Нужна ли вашим инженерам надежная платформа статистического анализа с мощными возможностями кодирования, или вашим аналитикам нужен более простой статистический инструмент, который может отображать базовые модели, или вам нужно что-то среднее?

Как ваш инструмент будет интегрироваться с существующими решениями вашего бизнеса?

Рассмотрение возможностей взаимодействия и интеграции программного обеспечения для перспективной статистики – важный шаг в процессе проверки. Хотя статистическое программное обеспечение помогает компаниям получать более глубокое представление о своих данных, они часто являются просто винтиками в их технологических экосистемах. Чаще всего вашему предприятию может потребоваться несколько решений для решения аналитических задач.

Подойдет ли новое решение другим?Если ваша компания в настоящее время использует какие-либо другие программы, может быть полезно получить инструмент статистического анализа, который поддерживает базы данных, форматы файлов и платформы ваших существующих решений.

Какое качество графики вам нужно?

Некоторые статистические пакеты содержат множество функций для визуализации данных, в то время как другие генерируют гораздо более простую графику с меньшими возможностями настройки.

Вы предпочитаете интерактивную или статичную визуализацию? Вам понадобится программное обеспечение для статистического анализа, чтобы создавать визуально привлекательную графику? Или, если вы будете выводить графику в другую программу, может ли программа экспортировать ее в удобной для вас форме?

Если визуализация является для вас важным предварительным условием, безусловно, стоит изучить возможности графического вывода вашей будущей статистической программы.

Каков ваш бюджет?

Стоимость пакетов программного обеспечения для статистики варьируется от бесплатных для инструментов с открытым исходным кодом, таких как Python и R, до тысяч долларов за лицензию для более надежных предложений. Вам понадобится только одна лицензия или несколько? Существует также множество платформ статистического анализа, академические версии которых доступны для студентов и преподавателей по сниженной цене.

Стоимость вашего решения повлияет на то, какое программное обеспечение для статистического анализа лучше всего подходит для вашего бизнеса.

Есть ли у решения документация или поддержка?

Нет ничего более неприятного, чем решение, которое создает больше проблем, чем решает. Гораздо проще пользоваться программами с подробной документацией, чем теми, в которых приходится разбираться самостоятельно. Прежде чем выбрать решение, убедитесь, что выбранный вами инструмент поставляется с документацией, понятной вашим пользователям, или, по крайней мере, с доступом к технической поддержке, если у них возникнут вопросы.

Лучшие статистические программные инструменты

Теперь, когда мы знаем, на что обращать внимание, давайте рассмотрим лучшие решения для статистического анализа, представленные в настоящее время на рынке, и выясним, подходит ли одно из них вам идеально.

R — это язык и среда для статистических вычислений и графики. Это проект GNU, похожий на язык и среду S, которые были разработаны в Bell Laboratories (ранее AT&T, теперь Lucent Technologies) Джоном Чемберсом и его коллегами. R можно рассматривать как другую реализацию S. Есть несколько важных отличий, но большая часть кода, написанного для S, выполняется без изменений в R.

R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. д.) и графических методов, а также обладает широкими возможностями расширения. Язык S часто выбирают для исследований в области статистической методологии, а R предоставляет путь к участию в этой деятельности с открытым исходным кодом.

Одной из сильных сторон R является простота создания хорошо продуманных графиков публицистического качества, включая математические символы и формулы, где это необходимо. Большое внимание было уделено значениям по умолчанию для второстепенных вариантов дизайна в графике, но пользователь сохраняет полный контроль.

R доступен как бесплатное программное обеспечение в соответствии с условиями Стандартной общественной лицензии GNU Free Software Foundation в виде исходного кода. Он компилируется и работает на самых разных платформах UNIX и подобных системах (включая FreeBSD и Linux), Windows и MacOS.

Среда R

R — это интегрированный набор программных средств для обработки данных, расчета и графического отображения. Включает

  • эффективное средство обработки и хранения данных,
  • набор операторов для вычислений с массивами, в частности с матрицами,
  • большой, последовательный, интегрированный набор промежуточных инструментов для анализа данных,
  • графические средства для анализа данных и их отображения на экране или в печатном виде, а также
  • хорошо разработанный, простой и эффективный язык программирования, включающий условные операторы, циклы, определяемые пользователем рекурсивные функции и средства ввода и вывода.

Термин "среда" предназначен для характеристики ее как полностью спланированной и согласованной системы, а не как постепенный набор очень специфических и негибких инструментов, как это часто бывает с другим программным обеспечением для анализа данных.

R, как и S, разработан на основе настоящего компьютерного языка и позволяет пользователям добавлять дополнительные функции, определяя новые функции. Большая часть системы написана на диалекте R языка S, что позволяет пользователям легко следовать сделанным алгоритмическим выборам. Для ресурсоемких задач код C, C++ и Fortran может быть связан и вызван во время выполнения. Опытные пользователи могут написать код C для прямого управления объектами R.

Многие пользователи считают R системой статистики. Мы предпочитаем рассматривать его как среду, в которой реализуются статистические методы. R можно (легко) расширить с помощью пакетов.Вместе с дистрибутивом R поставляется около восьми пакетов, и многие другие доступны через семейство интернет-сайтов CRAN, охватывающих очень широкий спектр современных статистических данных.

R имеет собственный формат документации, похожий на LaTeX, который используется для предоставления исчерпывающей документации как онлайн в нескольких форматах, так и в печатном виде.

© Фонд R. По вопросам, касающимся этого веб-сайта, обращайтесь ; если у вас возникнут вопросы о самом R, обратитесь к разделу Получение справки.

Мы проводим исследования для проверки гипотез, и мы делаем это, собирая данные. Будем надеяться, что если наши эксперименты будут спланированы и проведены правильно, мы сможем получить хорошие данные, которые могут рассказать нам что-то уникальное о мире.

Несмотря на то, что первая часть любого эксперимента — планирование и проведение — очень важна, это только полдела. То, как обрабатываются данные, не менее важно, и правильный анализ хороших данных может привести к новаторским выводам и идеям.

Анализ данных часто считается самым пугающим аспектом исследования, но так быть не должно. Хотя вам нужно понимать, что делать с данными и как интерпретировать результаты, программное обеспечение, предназначенное для статистического анализа, может максимально упростить и упростить этот процесс.

Для проведения статистического анализа данных доступно большое количество инструментов, и ниже мы перечисляем (в произвольном порядке) семь лучших пакетов, подходящих для исследования человеческого поведения.

1. SPSS (IBM)

SPSS (Статистический пакет для социальных наук) – это, пожалуй, наиболее широко используемый статистический программный пакет в исследованиях человеческого поведения. SPSS предлагает возможность легко составлять описательную статистику, параметрический и непараметрический анализ, а также графическое представление результатов через графический интерфейс пользователя (GUI). Он также включает возможность создания сценариев для автоматизации анализа или выполнения более сложной статистической обработки.

2. R (Фонд R для статистических вычислений)

R – это бесплатный статистический программный пакет, который широко используется как в исследованиях человеческого поведения, так и в других областях. Наборы инструментов (по сути, плагины) доступны для большого количества приложений, которые могут упростить различные аспекты обработки данных. Хотя R является очень мощным программным обеспечением, оно также имеет крутую кривую обучения, требующую определенного уровня программирования. Тем не менее, он поставляется с активным сообществом, занимающимся созданием и улучшением R и связанных с ним подключаемых модулей, что гарантирует, что помощь никогда не будет слишком далеко.

3. MATLAB (Математика)

MatLab – это аналитическая платформа и язык программирования, которые широко используются инженерами и учеными. Как и в случае с R, путь обучения сложен, и в какой-то момент вам потребуется создать собственный код. Также доступно множество наборов инструментов, которые помогут ответить на ваши исследовательские вопросы (например, EEGLab для анализа данных ЭЭГ). Хотя новичкам может быть сложно использовать MatLab, он предлагает огромную гибкость с точки зрения того, что вы хотите делать — до тех пор, пока вы можете кодировать его (или, по крайней мере, управлять необходимым набором инструментов).

4. Microsoft Excel

Хотя MS Excel не является передовым решением для статистического анализа, он предлагает широкий спектр инструментов для визуализации данных и простой статистики. Генерировать сводные показатели и настраиваемые графики и цифры очень просто, что делает его полезным инструментом для многих, кто хочет видеть основы своих данных. Поскольку многие люди и компании владеют Excel и знают, как его использовать, это также делает его доступным вариантом для тех, кто хочет начать работу со статистикой.

5. SAS (программное обеспечение для статистического анализа)

SAS – это платформа статистического анализа, которая предлагает варианты использования графического интерфейса или создания сценариев для более сложного анализа. Это решение премиум-класса, которое широко используется в бизнесе, здравоохранении и исследованиях человеческого поведения. Можно проводить расширенный анализ и создавать графики и диаграммы, достойные публикации, хотя кодирование также может быть сложной задачей для тех, кто не привык к такому подходу.

6. Призма графического планшета

GraphPad Prism – это программное обеспечение премиум-класса, которое в основном используется для статистики, связанной с биологией, но предлагает ряд возможностей, которые можно использовать в различных областях. Как и в SPSS, доступны варианты сценариев для автоматизации анализа или выполнения более сложных статистических вычислений, но большую часть работы можно выполнить с помощью графического интерфейса.

7.Минитаб

Программное обеспечение Minitab предлагает набор как базовых, так и достаточно продвинутых статистических инструментов для анализа данных. Подобно GraphPad Prism, команды можно выполнять как с помощью графического интерфейса пользователя, так и с помощью сценариев, что делает его доступным как для новичков, так и для пользователей, желающих выполнять более сложные анализы.

Заключение

Существует целый ряд различных программных инструментов, каждый из которых предлагает пользователю что-то свое. Ваш выбор будет зависеть от ряда факторов, в том числе от вашего исследовательского вопроса, знания статистики и опыта программирования.

Эти факторы могут означать, что вы находитесь на переднем крае анализа данных, но, как и в любом исследовании, качество полученных данных зависит от качества проведения исследования. Поэтому важно помнить, что, хотя у вас может быть передовое статистическое программное обеспечение (и знания по его использованию), результаты не будут иметь большого значения, если они не были собраны надлежащим образом.

Мы составили руководство по планированию экспериментов, которое поможет вам проводить качественные исследования, чтобы на полученные результаты можно было положиться.

Читайте также: