Стандартная ошибка асимметрии в Excel
Обновлено: 20.11.2024
Рассмотрите следующий пример $\$. Среднее значение $\mu=3.$, стандартное отклонение $\sigma\приблизительно 2,69$. Мне интересно, как вычислить и как назвать планки погрешностей в контексте этого примера.
Использование стандартной ошибки ($\mu \pm \sigma$), очевидно, будет не очень полезным, так как будет охватывать всю выборку, за исключением одного выброса. Использование 1-го и 4-го квартиля $[1.75,2.5]$ описывает выборку намного лучше, но кажется странным использовать для построения планок погрешностей, так как среднее значение не находится внутри этого интервала.
Можно было бы использовать среднее отклонение всех верхних (выше среднего) и всех нижних (ниже среднего) наблюдений, что дало бы $[2.,10.]$, но, похоже, нет имени собственного для этой концепции (обсуждается здесь). Я склоняюсь к этому варианту, но у меня возникают проблемы со ссылкой на то, что отображается удобным способом (называть это «средним отклонением», «стандартным отклонением», «стандартными ошибками» или «средними ошибками» просто неправильно; называть это «ошибками»). " или "верхние/нижние ошибки" кажутся неконкретными и также, похоже, подразумевают какую-то оценку, которая не задействована; называть это "верхнее/нижнее отклонение" неконкретно, и читатели, вероятно, предположат, что это относится к чему-то вроде стандартного отклонения).
Как обычно рассчитываются планки погрешностей для такой выборки и как они обычно называются (кроме «планок погрешностей»)?
$\begingroup$ Я считаю, что каждая полоса погрешности на рисунке, на который вы ссылаетесь, основана на другом образце (и найдена, как объяснено ниже на рисунке). Я не думаю, что общепринято использовать «планки погрешностей» для одного изолированного набора данных, такого как ваш. Возможно, вы могли бы использовать свою выборку, чтобы найти доверительный интервал для среднего значения генеральной совокупности, из которой она была взята случайным образом. $\endgroup$
$\begingroup$ Приведенный выше пример был просто иллюстративным. У меня есть несколько образцов с большим количеством наблюдений, чем этот, но некоторые из них столь же асимметричны. И мне интересно, можно ли визуализировать их с планками ошибок и (при условии, что это возможно) как. $\endgroup$
$\begingroup$ Чтобы получить полезные бары погрешностей или CI для сильно искаженных данных, вам, вероятно, потребуется что-то знать об основном распределении. В примере, который вы показываете, 10 кажется выбросом. Мой ответ ниже показывает, как найти асимметричные CI для выборки из сильно асимметричного экспоненциального распределения. Если вы ничего не знаете о распределении населения, возможно, вы захотите рассмотреть загрузочные ЭК. Для другого вида отображения вы можете посмотреть на ящичные диаграммы. $\endgroup$
1 Ответ 1
ПОЛОСЫ ОШИБОК. Насколько мне известно, термин «полоса погрешности» может относиться практически к любой линии, указывающей на степень неопределенности. В различных дисциплинах и приложениях они могут указывать стандартное отклонение (SD) данных, стандартную ошибку (часто SD, деленную на квадратный корень размера выборки) или доверительный интервал (90%, 95% или 99%). См. очень короткую статью об ошибках в Википедии.
АСИММЕТРИЧНЫЕ ОБРАЗЦЫ. Однако я думаю, что ваш главный вопрос связан с асимметричными популяциями, выборками из них и планками погрешностей, представляющими оценку параметра популяции. Распространенным асимметричным семейством распределений в статистике является гамма-семейство, которое включает в себя экспоненциальные распределения с сильным смещением вправо.
В качестве примера асимметричных доверительных интервалов я покажу, что доверительные интервалы для оценок среднего экспоненциального распределения асимметричны.
Среднее значение экспоненциального распределения оценивается по выборочному среднему. Предположим, что данные представляют собой $X_1, \dots, X_$ из экспоненциального распределения со средним $\mu.$ Тогда выборочное среднее $\bar X/\mu$ имеет гамма-распределение с параметром формы $n = 10$ и параметром масштаба $1/n=0,1$ (параметр скорости $n=10$). Пусть числа $L$ и $U$ отсекают вероятность 2,5% от нижнего и верхнего концов этого распределения. Тогда $$P(L 0,546, 0,742, 1,005, 3,160, 3,594, 4,057, 4,156, 5,483, 12,590, 21,383.
Здесь $\bar X = 5,6716$, а 95% ДИ для $\mu$ равен $(3,32, 11,83).$
Обратите внимание, что данные сильно искажены вправо: несколько небольших значений расположены близко друг к другу в левом конце, а "хвост" с большими значениями разбросан в правом конце. Также обратите внимание, что 5,67 ближе к левому краю ДИ, чем к правому. (Как правило, CI не включает ВСЕ данные, его цель — указать интервал значений, в котором можно логически ожидать, что среднее значение генеральной совокупности будет лежать.)
Примечания (1) Столбики ошибок часто встречаются группами. Если бы мы провели полдюжины экспериментов такого типа на компонентах разных спецификаций. Мы могли бы составить сводку данных по шести доверительным интервалам в столбце. Несмотря на то, что можно считать, что каждый ЭК имеет «вероятность ошибки» всего 5%, НАБОР шести ЭК, взятых вместе, может быть значительно выше.Таким образом, мы должны быть осторожны, делая выводы о МОДЕЛЯХ поведения среди шести видов компонентов. (Есть способы сделать ЭК таким образом, чтобы частота ошибок СЕМЕЙСТВА ЭК составляла всего 5%, но это уже другая тема.)
(2) Предположим, мы не заметили асимметрию или не знали, что приведенные выше данные получены из экспоненциального распределения. Тогда мы могли бы НЕПРАВИЛЬНО принять симметричное нормальное распределение и использовать симметричный доверительный интервал, основанный на t-распределении. Этот неправильный симметричный интервал будет иметь вид $\bar X \pm 2,262 S/\sqrt,$, который будет вычисляться как $(1,01, 10,34)$ [Для показанных выше данных $S = 6,52$ статистика не нужна для правильного ЭК.]
Рассматриваем случайную величину x и набор данных S = x1, x2, …, xn> размера n, который содержит возможные значения x эм>. Набор данных может представлять либо изучаемую совокупность, либо выборку, взятую из совокупности.
Глядя на S как на представление распределения, асимметрия S – это мера симметрии, а эксцесс – мера остроконечности данных в S< /эм>.
Симметрия и асимметрия
Определение 1. Мы используем асимметрию как меру симметрии. Если асимметрия S равна нулю, то распределение, представленное S, абсолютно симметрично. Если асимметрия отрицательна, то распределение смещено влево, а если асимметрия положительна, то распределение смещено вправо (см. пример на рис. 1 ниже).
Excel вычисляет асимметрию выборки S следующим образом:
где x̄ — среднее значение, а s — стандартное отклонение S. Чтобы избежать деления на ноль, эта формула требует, чтобы n > 2.
Наблюдение: когда распределение симметрично, среднее значение равно медиане, когда распределение имеет положительную асимметрию, среднее значение > медианы, а когда распределение имеет отрицательную асимметрию, среднее значение
Функция Excel: Excel предоставляет функцию СКОС как способ вычисления асимметрии S, т. е. если R — это диапазон в Excel, содержащий элементы данных в S, тогда SKEW(R) = асимметрия S.
Функция Excel 2013: существует также популяционная версия асимметрии, определяемая формулой
Эта версия реализована в Excel 2013 с помощью функции SKEW.P.
Получается, что для диапазона R, состоящего из данных в S = x1, …, xn sub>>, СКОС.P(R) = СКОС(R)*(n–2)/КОРЕНЬ(n(n–< /em>1)) где n = COUNT(R).
Функция реальной статистики. В качестве альтернативы можно рассчитать асимметрию совокупности с помощью функции SKEWP(R), которая содержится в пакете ресурсов Real Statistics.
Пример 1. Предположим, что S = . Асимметрия S = -0,43, т. е. SKEW(R) = -0,43, где R — это диапазон на листе Excel, содержащий данные в S. Поскольку это значение отрицательное, кривая, представляющая распределение, скошена влево (т. е. более толстая часть кривой находится справа). Также SKEW.P(R) = -0,34. См. рис. 1.
Рисунок 1 – Примеры асимметрии и эксцесса
Наблюдение: SKEW(R) и SKEW.P(R) игнорируют любые пустые ячейки или ячейки с нечисловыми значениями.
Эксцесс
Определение 2. Эксцесс обеспечивает измерение крайних точек (т. е. хвостов) распределения данных и, следовательно, указывает на наличие выбросов.
Excel вычисляет эксцесс образца S следующим образом:
где x̄ — среднее значение, а s — стандартное отклонение S. Чтобы избежать деления на ноль, эта формула требует, чтобы n > 3.
Наблюдение: обычно считается, что эксцесс обеспечивает меру остроконечности (или плоскостности), но это не так. Эксцесс относится к конечностям, а не к центру распределения.
Функция Excel: Excel предоставляет функцию KURT как способ вычисления эксцесса S, т. е. если R — это диапазон в Excel, содержащий элементы данных в S, тогда KURT(R) = эксцесс S.
Наблюдение: эксцесс населения рассчитывается по формуле
который можно рассчитать в Excel по формуле
Функция реальной статистики. В Excel нет функции эксцесса населения, но для этой цели можно использовать следующую функцию реальной статистики:
KURTP(R, превышение) = эксцесс распределения для совокупности в диапазоне R1.Если excess = TRUE (по умолчанию), то из результата вычитается 3 (обычный подход, при котором эксцесс нормального распределения равен нулю).
Пример 2. Предположим, что S = . Эксцесс S = -0,94, т. е. KURT(R) = -0,94, где R — это диапазон на листе Excel, содержащий данные в S. Эксцесс населения составляет -1,114. См. рис. 1.
Наблюдение: KURT(R) игнорирует любые пустые ячейки или ячейки с нечисловыми значениями.
Графическая иллюстрация
Теперь мы рассмотрим пример этих концепций с использованием распределения хи-квадрат.
Рисунок 2. Пример асимметрии и эксцесса
Рисунок 2 содержит графики двух распределений хи-квадрат (с разными степенями свободы df). Мы изучаем распределение хи-квадрат в другом месте, но сейчас обратите внимание на следующие значения эксцесса и асимметрии:
Просто основной вопрос: если вы используете асимметричную планку погрешности (которая, конечно, составляет половину обычной полосы погрешности), вы затем уменьшаете вдвое значение стандартного отклонения?
Получите помощь в своем исследовании
Присоединяйтесь к ResearchGate, чтобы задавать вопросы, получать отзывы и продвигать свою работу.
Популярные ответы (1)
Джош, из любопытства объясните, откуда берутся эти асимметричные полосы ошибок? Например, они для средних, или медиан, или геометрических средних? И они должны представлять стандартное отклонение? Или какая-то другая мера дисперсии?
Все ответы (3)
SD – это квадратный корень из дисперсии. Пока это просто (единственное!) значение, связанное с изменчивостью значений. До этого момента он не имеет полезного значения.
Учитывая нормальное распределение значений, стандартное отклонение приобретает еще большее значение, а именно то, что ожидается около 63% значений в интервале от (среднее-SD) до (среднее+SD), около 95% значения в интервале (среднее-2*SD) до (среднее+2*SD) и около 99% значений в интервале (среднее-3*SD) до (среднее+3*SD).
ЕСЛИ распределение значений нормальное, ТО я могу показать интервал, например, от среднего-2*SD до среднего+2*SD, чтобы указать диапазон, в котором, как я ожидаю, будет около 95% значений. (имеется в виду, безусловно, «будущие», еще не наблюдаемые ценности). Этот интервал симметричен относительно среднего, то есть его верхний предел находится на том же расстоянии от среднего, что и его нижний предел. Интервал ДОЛЖЕН быть симметричен относительно среднего значения, поскольку нормальное распределение симметрично относительно среднего значения.
Если распределение несимметрично, то сводная статистика, такая как стандартное отклонение, не имеет значимой (практической) интерпретации. Если нет смысла показывать интервал на основе СКО, т.к. непонятно, что означает этот интервал (например, неясно, какая доля значений ожидается в таком интервале). Так что этот интервал в любом случае не имеет никакого значения. В таких случаях можно указать интервал, содержащий 95% (ожидаемых) значений, как интервал от 2,5%-го процентиля до 97,5%-го процентиля данных. Тогда центральная тенденция значений лучше всего определяется 50%-ным процентилем (= медиана). Тогда такой интервал может быть асимметричным, расстояние от медианы до верхней границы может отличаться от расстояния от медианы до нижней границы. Именно это дает визуальную информацию об асимметрии распределения.
Нет "обычных полос ошибок". Планки погрешностей могут иметь очень разные значения. Они могут указывать межпроцентильные диапазоны или стандартные отклонения, а также доверительные интервалы, интервалы правдоподобия, интервалы прогнозирования, стандартные ошибки и я не знаю, что еще. Поэтому важно всегда четко указывать, что означают планки погрешностей (как они получены).
Если вас беспокоит ЭТО, что полосы погрешностей выглядят слишком большими, то почему бы вам просто не убрать их? Использование планок погрешностей только для того, чтобы диаграмма выглядела «красиво», совершенно не по теме. Такие планки ошибок бесполезны. Так что лучше их полностью исключить. Я знаю многих людей, которые используют стандартные ошибки вместо доверительных интервалов, чтобы указать ТОЛЬКО точность оценок, потому что планки ошибок, основанные на стандартных ошибках, меньше, чем те, которые показывают доверительные интервалы. Какой детский сад.
Симметрия и эксцесс
Как упоминалось ранее, распределения, имеющие одинаковое количество наблюдений, разбросанных одинаково по обе стороны от моды, называются симметричными. Для таких распределений среднее значение и медиана будут иметь близкие значения. Один из примеров симметричного распределения, который мы видели, касался разницы средних значений выборки и среднего значения генеральной совокупности:
Для этого распределения среднее значение – 0,00368, а медиана – 0,00342. 4 распределения, с которыми мы работали в нашей книге Excel, также симметричны, как вы можете видеть, сравнивая выборочные средние значения с выборочными медианами. Степень отклонения распределения от симметрии называется асимметрией. Мы видели пример асимметричного распределения с данными о вике:
В этом примере данные показывают положительную асимметрию (или асимметрию вправо), при этом хвост тянется вправо. Существует эмпирическое правило, которое предполагает, что положение среднего значения относительно медианы даст вам направление перекоса. В данном случае это, по-видимому, так, поскольку среднее значение находится справа от медианы, но это эмпирическое правило не подходит для применения, особенно для мультимодальных распределений, потому что оно недостаточно последовательно. Сравнение между средним значением и медианой лучше всего использовать для определения того, является ли распределение симметричным или нет.
Есть еще одна мера формы, которую мы можем применить к частотным распределениям, называемая эксцессом. Это мера того, насколько пиковым является распределение. Эксцесс и асимметрию можно измерить, но мы не будем рассматривать эти методы, поскольку эти характеристики редко сообщаются при обобщении данных.
Стандартная ошибка
С технической точки зрения термины "стандартное отклонение" и "стандартная ошибка" взаимозаменяемы. На практике люди склонны использовать термин «стандартное отклонение» для обозначения разброса наблюдений вокруг среднего значения выборки (идентично нашему использованию стандартного отклонения выборки до сих пор) и будут использовать «стандартную ошибку» для обозначения стандартного отклонения выборки. означает примерно среднее значение населения.
Если принять во внимание эту разницу, то следует прийти к выводу, что для получения "стандартной ошибки" необходимо было бы взять большое количество выборок из совокупности и использовать средние значения выборки в качестве наблюдений при расчете. стандартного отклонения. Другими словами, стандартное отклонение выборки основано на различиях между наблюдениями и средним значением выборки, а стандартная ошибка основана на разнице между средним значением выборки и средним значением генеральной совокупности.
Давайте ненадолго остановимся, чтобы установить 2 правила представления данных:
На этот раз только период. Это хорошее правило, но оно не приведет к тому, что все научное сообщество будет сторониться вас, если вы его нарушите.
К этому моменту обсуждения чувство беспокойства должно было вернуться. Вам только что сказали, что чаще всего термин ошибки, который вы захотите использовать в связи со средним значением вашей выборки, является стандартной ошибкой. Вам также сказали, что стандартная ошибка представляет собой стандартное отклонение средних значений выборки от среднего значения генеральной совокупности, что означает, что ее нельзя получить из одной выборки. Помните дружеские письма из «Автостопом по Галактике». Возможно, мы не сможем получить стандартную ошибку (далее сокращенно "SE") для одной выборки, но мы, безусловно, можем оценить ее, используя следующую формулу:
Неудивительно, что количество вариаций в нашей выборке относительно размера выборки дает нам информацию о том, насколько близка наша оценка среднего значения к среднему значению генеральной совокупности. Единственный остающийся вопрос состоит в том, является ли эта оценка предвзятой или нет. Чтобы проверить это, я рассчитал SE для 1000 выборок по 50 наблюдений в каждой (программа R, которую я использовал для этого, находится здесь) и нанес распределение этих стандартных ошибок на следующий график:
Среднее значение этого распределения – 0,282, а медиана – 0,281. В то же время программа рассчитала выборочные средние для 1000 выборок из 50 из той же статистической совокупности. Стандартное отклонение этих выборочных средних составило 0,279.
Вопрос 4. Исходя из этого примера, получается ли, что SE является объективной оценкой стандартного отклонения выборочных средних значений относительно среднего значения генеральной совокупности? Обосновать ответ.
Это позволит вам выбрать столбец L (в данном примере) для ряда по оси X и столбец M для ряда по оси Y. Это также позволит вам легко выбрать соответствующие стандартные ошибки, когда вы перейдете к этому этапу процесса. К сожалению, при копировании среднего значения и SE в таблицу будут скопированы формулы с ошибочными ссылками, если вы не воспользуетесь опцией «специальная вставка». После использования «Ctrl + c» для копирования и выбора целевой ячейки курсором нажмите «Вставить» под значком буфера обмена (в левой части панели инструментов «HOME»), чтобы открыть меню и выберите «Специальная вставка». ". Это вызовет меню «Специальная вставка». Из вариантов в левом верхнем углу выберите «Значения», а затем нажмите «ОК». Это вставит результат формулы вместо самой формулы. Если вы предпочитаете клавиатуру мыши, вы можете сделать то же самое, набрав последовательно (не удерживая ни одной клавиши) «Alt», e, s, v. Затем останется только нажать «ОК», или, что больше соответствует принципу избегания использования мыши, нажмите "Enter".
Начните с построения гистограмм средних значений двух наборов данных. Как описано выше, сделайте группы сериями по оси X, а средние — сериями по оси Y (вам понадобится только одна серия для каждого графика). Отформатируйте графики, как мы описали ранее, за одним исключением: сделайте столбцы белыми (или не заполняйте) вместо черного. Обязательно используйте соответствующие единицы измерения в названиях осей. Сейчас. вы будете готовы:
Читайте также: