Критерий Шапиро-Уилка
Критерий Шапиро-Уилка используется для проверки гипотезы : «случайная величина распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, критерий Фишера.
Описание критерия
Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид:
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
Коэффициенты берутся из таблиц. Ниже приведена таблица для небольших значений n и i.
Коэффициенты
n | i | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
3 | 7071 | |||||||||
4 | 6872 | 1677 | ||||||||
5 | 6646 | 2413 | ||||||||
6 | 6431 | 2806 | 0875 | |||||||
7 | 6233 | 3031 | 1401 | |||||||
8 | 6052 | 3164 | 1743 | 0561 | ||||||
9 | 5888 | 3244 | 1976 | 0947 | ||||||
10 | 5739 | 3291 | 2141 | 1224 | 0399 | |||||
11 | 5601 | 3315 | 2260 | 1429 | 0695 | |||||
12 | 5475 | 3325 | 2347 | 1586 | 0922 | 0303 | ||||
13 | 5359 | 3325 | 2412 | 1707 | 1099 | 0539 | ||||
14 | 5251 | 3318 | 2460 | 1802 | 1240 | 0727 | 0240 | |||
15 | 5150 | 3306 | 2495 | 1878 | 1353 | 0880 | 0433 | |||
16 | 5056 | 3290 | 2521 | 1939 | 1447 | 1005 | 0593 | 0196 | ||
17 | 4968 | 3237 | 2540 | 1988 | 1524 | 1109 | 0725 | 0359 | ||
18 | 4886 | 3253 | 2553 | 2027 | 1587 | 1197 | 0837 | 0496 | 0173 | |
19 | 4808 | 3232 | 2561 | 2059 | 1641 | 1271 | 0932 | 0612 | 0303 | |
20 | 4734 | 3211 | 2565 | 2085 | 1686 | 1334 | 1013 | 0711 | 0422 | 0140 |
21 | 4634 | 3185 | 2578 | 2119 | 1736 | 1399 | 1092 | 0804 | 0530 | 0263 |
Критические значения статистики также находятся таблично.
Если , то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости Приближённая вероятность получения эмпирического значения при вычисляется по формуле
где — табличные коэффициенты.
Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях таблицы коэффициентов становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.
Критерий Шапиро-Франчиа
Введённая статистика имеет вид
где и — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация где не искажает существенно критерий
Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать
Решение «табличной проблемы»
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. Для предлагается статистика
Если то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).
См. также
- Проверка статистических гипотез
- Критерий асимметрии и эксцесса
- Критерий хи-квадрат
Ссылки
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.
- Shapiro S. S., Wilk M. B. An analysis of variance test for normality. — Biometrika, 1965, 52, №3 — p. 591-611. [1]
Как выполнить тест Шапиро-Уилка в R (с примерами)
Тест Шапиро-Уилка является тестом на нормальность. Он используется для определения того, соответствует ли выборка нормальному распределению .
Этот тип теста полезен для определения того, исходит ли данный набор данных из нормального распределения, что является распространенным предположением, используемым во многих статистических тестах, включая регрессию , дисперсионный анализ , t-тесты и многие другие.
Мы можем легко выполнить тест Шапиро-Уилка для данного набора данных, используя следующую встроенную функцию в R:
Шапиро.тест(х)
- x: числовой вектор значений данных.
Эта функция создает тестовую статистику W вместе с соответствующим p-значением. Если p-значение меньше, чем α = 0,05, имеется достаточно доказательств, чтобы сказать, что выборка не происходит из населения с нормальным распределением.
Примечание. Размер выборки должен быть от 3 до 5000, чтобы можно было использовать функцию shapiro.test().
В этом руководстве показано несколько примеров использования этой функции на практике.
Пример 1. Критерий Шапиро-Уилка для нормальных данных
В следующем коде показано, как выполнить тест Шапиро-Уилка для набора данных с размером выборки n = 100:
#make this example reproducible set.seed(0) #create dataset of 100 random values generated from a normal distribution data
Значение p теста оказывается равным 0,6303.Поскольку это значение не меньше 0,05, мы можем предположить, что данные выборки получены из населения с нормальным распределением.
Этот результат не должен вызывать удивления, поскольку мы сгенерировали выборочные данные с помощью функции rnorm(), которая генерирует случайные значения из нормального распределения со средним значением = 0 и стандартным отклонением = 1.
Мы также можем создать гистограмму, чтобы визуально убедиться, что данные выборки распределены нормально:
hist(data, col='steelblue')
Мы видим, что распределение имеет довольно колоколообразную форму с одним пиком в центре распределения, что типично для данных с нормальным распределением.
Пример 2: тест Шапиро-Уилка на ненормальных данных
В следующем коде показано, как выполнить тест Шапиро-Уилка для набора данных с размером выборки n = 100, в котором значения генерируются случайным образом израспределения Пуассона :
#make this example reproducible set.seed(0) #create dataset of 100 random values generated from a Poisson distribution data
Значение p теста оказывается равным 0,0003393.Поскольку это значение меньше 0,05, у нас есть достаточно доказательств, чтобы сказать, что данные выборки не получены из населения с нормальным распределением.
Этот результат не должен вызывать удивления, поскольку мы сгенерировали выборочные данные с помощью функции rpois(), которая генерирует случайные значения из распределения Пуассона.
Мы также можем создать гистограмму, чтобы визуально увидеть, что выборочные данные не распределены нормально:
hist(data, col='coral2')
Мы видим, что распределение скошено вправо и не имеет типичной «колокольчатой формы», связанной с нормальным распределением. Таким образом, наша гистограмма соответствует результатам теста Шапиро-Уилка и подтверждает, что данные нашей выборки не имеют нормального распределения.
Что делать с ненормальными данными
Если данный набор данных не распределен нормально, мы часто можем выполнить одно из следующих преобразований, чтобы сделать его более нормальным:
1. Преобразование журнала: преобразование переменной ответа из y в log(y) .
2. Преобразование квадратного корня: преобразовать переменную отклика из y в √y .
3. Преобразование кубического корня: преобразовать переменную ответа из y в y 1/3 .
Выполняя эти преобразования, переменная отклика обычно становится ближе к нормально распределенной.
Ознакомьтесь с этим руководством , чтобы увидеть, как выполнять эти преобразования на практике.
Тест Шапиро – Уилка
сделано из ожидаемых значений этих порядковых статистик от независимых одинаково распределенных случайных величин , отбираемых из стандартного нормального распределения; наконец-то, V является ковариационной матрицей этих статистик нормального порядка. [3]
Нет названия для распространения W . Значения отсечки для статистики вычисляются с помощью моделирования Монте-Карло. [2]
Интерпретация
Нуль-гипотеза данного теста является то , что население распределено нормально. Таким образом, если значение p меньше выбранного альфа-уровня , нулевая гипотеза отклоняется и есть свидетельства того, что проверенные данные не имеют нормального распределения. С другой стороны, если значение p больше, чем выбранный альфа-уровень, то нулевая гипотеза (что данные пришли из нормально распределенной совокупности) не может быть отклонена (например, для альфа-уровня 0,05 набор данных со значением p менее 0,05 отвергает нулевую гипотезу о том, что данные взяты из нормально распределенной совокупности). [4]
Как и большинство тестов статистической значимости , если размер выборки достаточно велик, этот тест может обнаруживать даже тривиальные отклонения от нулевой гипотезы (т. Е., Хотя может быть некоторый статистически значимый эффект , он может быть слишком мал, чтобы иметь какое-либо практическое значение); таким образом, обычно рекомендуется дополнительное исследование величины эффекта , например, в этом случае график Q – Q. [5]
Анализ мощности
Моделирование методом Монте-Карло показало, что Шапиро-Уилк имеет лучшую мощность для заданного значения , за ним следует Андерсон-Дарлинг при сравнении тестов Шапиро-Уилка, Колмогорова-Смирнова , Лиллиефорса и Андерсона-Дарлинга. [6]
Приближение
Ройстон предложил альтернативный метод вычисления вектора коэффициентов, предоставив алгоритм вычисления значений, который увеличил размер выборки до 2000. [7] Этот метод используется в нескольких программных пакетах, включая Stata, [8] [9] SPSS и SAS. [10] Рахман и Говидараджулу увеличили размер выборки до 5 000 человек. [11]
Смотрите также
- Тест Андерсона – Дарлинга
- Критерий Крамера – фон Мизеса
- К-квадрат Д'Агостино
- Тест Колмогорова – Смирнова
- Тест Лиллиефорса
- График нормальной вероятности
- Тест Шапиро-Франсиа
Рекомендации
- ^ аб Шапиро, СС; Вилк, МБ (1965). «Тест дисперсионного анализа на нормальность (полные выборки)». Биометрика . 52 (3–4): 591–611. DOI : 10.1093 / Biomet / 52.3-4.591 . JSTOR 2333709 . Руководство по ремонту 0205384 . п. 593
- ^ а б [1]
- ^ [2]
- ^
- «Как мне интерпретировать тест Шапиро-Уилка на нормальность?» . JMP . 2004 . Проверено 24 марта 2012 года .
- ^
- Поле, Энди (2009). Обнаружение статистики с помощью SPSS (3-е изд.). Лос-Анджелес [то есть Таузенд-Оукс, Калифорния]: SAGE Publications. п. 143. ISBN. 978-1-84787-906-6 .
- ^
- Разали, Норнадия; Вау, Яп Би (2011). «Силовые сравнения тестов Шапиро – Вилка, Колмогорова – Смирнова, Лиллиэфорса и Андерсона – Дарлинга» . Журнал статистического моделирования и аналитики . 2 (1): 21–33 . Проверено 30 марта 2017 года .
- ^
- Ройстон, Патрик (сентябрь 1992 г.). «Аппроксимация W- критерия Шапиро – Уилка на ненормальность». Статистика и вычисления . 2 (3): 117–119. DOI : 10.1007 / BF01891203 .
- ^
- Ройстон, Патрик. «Тесты Шапиро – Вилка и Шапиро – Франсиа». Технический бюллетень Stata, StataCorp LP . 1 (3).
- ^ Тесты Шапиро-Уилка и Шапиро-Франсиа на нормальность
- ^
- Пак, Хун Мён (2002–2008). «Одномерный анализ и проверка нормальности с использованием SAS, Stata и SPSS» (PDF) . [рабочий документ] . Проверено 26 февраля 2014 года .
- ^
- Рахман и Говидараджулу (1997). «Модификация теста Шапиро и Уилка на нормальность». Журнал прикладной статистики . 24 (2): 219–236. DOI : 10.1080 / 02664769723828 .
Внешние ссылки
- Пример работы с использованием Excel
- Алгоритм AS R94 (Shapiro Wilk) Код FORTRAN
- Исследовательский анализ с использованием критерия нормальности Шапиро – Уилка в R
- Реальная статистика в Excel: расширенный тест Шапиро-Уилка
Тест Шапиро-Уилка
В статистике , то Шапиро - Wilk тест проверяет нулевую гипотезу о том , что образец является из нормально распределенной населения . Он был опубликован в 1965 году Сэмюэлем Сэнфордом Шапиро и Мартином Уилком . Икс 1 , . , Икс нет , \ dots, x_ >
Резюме
Теория
W знак равно ( ∑ я знак равно 1 нет в я Икс ( я ) ) 2 ∑ я знак равно 1 нет ( Икс я - Икс ¯ ) 2 ^ a_ x _ \ right) ^ \ over \ sum \ limits _ ^ (x_ - >) ^ >>
- x( i ) (индекс i заключен в круглые скобки ) обозначает статистику i- го порядка, т. е. i- е наименьшее число в выборке;
- Икс ¯ знак равно 1 нет ( Икс 1 + ⋯ + Икс нет ) > = > (x_ + \ cdots + x_ )> - выборочное среднее;
- постоянная ai определяется выражением
и - ожидания статистик порядка выборки переменных iid в соответствии с нормальным распределением, а V - матрица дисперсии-ковариации этих статистик порядка. м 1 , . , м нет , \ dots, m_ >
В заключение сравнивается с таблицей. W
Интерпретация
Зная, что нулевая гипотеза состоит в том, что популяция распределена нормально,
- если значение p меньше выбранного альфа-уровня (например, 0,05), то нулевая гипотеза отклоняется (то есть маловероятно получить такие данные, если предположить, что они нормально распределены).
- если p-значение больше, чем выбранный альфа-уровень (например, 0,05), то нулевая гипотеза не должна отклоняться. Полученное значение p-значения никоим образом не предполагает характер распределения данных.
Смотрите также
- Нормальный закон
- Тест Колмогорова-Смирнова
- Право Генри
Рекомендации
- ↑ (in) С.С. Шапиро и М.Б. Уилк , « Тест дисперсионного анализа на нормальность (полные образцы) » , Biometrika , vol. 52, п кость 3-4, 1965 г. , стр. 591-611 ( DOI10.1093 / biomet / 52.3-4.591 , JSTOR2333709 )
- ↑op cit p. 593
- ↑op cit p. 605
Внешние ссылки
- Алгоритм AS R94 (Shapiro Wilk) Код FORTRAN
- Тест Шапиро - Уилка на нормальность в CRAN
- Тест Шапиро - Уилка на нормальность в QtiPlot
- Как интерпретировать тест Шапиро-Уилка на нормальность?
- Онлайн-версия теста Шапиро-Уилка
- Тест Шапиро с R
- Тест Шапиро с Python
- Z тест
- Т-тест для образца
- Знаковый тест
- Знаковый ранговый тест Уилкоксона
- Оценщик Ходжеса-Лемана
- F тест
- Студенческий тест
- U-критерий Манна-Уитни
- Тест на однородность χ²
- Макнемара тест
- Медианный тест
- Дисперсионный анализ (ANOVA)
- Тест Краскала-Уоллиса
- ANOVA Фридмана
- Тест Бартлетта
- Левен тест
- Тест Брауна-Форсайта
- Корреляции Пирсона
- Корреляция Спирмена
- Корреляция Кендалла
- Точный тест Фишера
- Тест на независимость
- T-тест Велча
- Гамма-тест
- Кендалл конкорданс
- Многомерный дисперсионный анализ
- Q-тест Кохрана
- Тест Колмогорова-Смирнова
- Χ² критерий соответствия
- Тест Жарка-Бера
- Тест Лиллиефорса
- Тест Андерсона-Дарлинга
- Тест Д'Агостино
- Тест Крамера-фон Мизеса
- Непараметрические тесты
- Параметрические тесты
- Таблица использования статистических тестов