Відповідні тести на нормальність для малих зразків


22

Поки що я використовував статистику Шапіро-Вілка, щоб перевірити припущення щодо нормальності в невеликих зразках.

Чи можете ви порадити іншу техніку?


1
Ось кілька інших можливих питань: це - тестування на нормальність - по суті, марне , для обговорення значення тесту на нормальність, і що - якщо - залишки - як правило, розподіляються, але - так - ні , для обговорення / уточнення сенсу, в якому нормальність є припущенням лінійної моделі.
gung - Відновіть Моніку

3
Вілк у Шапіро-Вілк посилається на Мартіна Б. Вілка. Це занадто просто написати "Wilks", особливо (а) якщо хтось ще сказав це чи написав, і ти копіюєш (b) ти знаєш про роботу зі статистики Семюеля С. Вілкса, зовсім іншої людини (с), яку ти отримуєш плутають термінал "s" в англійській мові, враховуючи інші його використання для множини (статистика, коти, собаки, ...) та володільців (ів), що є звичайним навіть серед тих, чиєю першою мовою є англійська. Я відредагував цю тему, наскільки я міг; Я не можу дійти до коментарів.
Нік Кокс

Відповіді:


24

Пакет fBasics в R (частина Rmetrics ) включає в себе кілька тестів на нормальність , що охоплюють багато популярних тестів частості - Колмогоров-Смірнов, Шапіро-Вілк, Жарк-Бера та Д'Агостіно - разом із обгорткою для тестів на нормальність у найновішому пакеті - Андерсон – Дарлінг, Крамер – фон Мізес, Лілліфорс (Колмогоров-Смірнов), Чи-квадрат Пірсона та Шапіро – Франсія. Документація на упаковку також містить усі важливі посилання. Ось демонстрація, яка показує, як використовувати тести від nortest .

Один із підходів, якщо у вас є час, - це використовувати більше одного тесту і перевірити на погодження. Тести різняться різними способами, тому обрати "найкращого" не зовсім просто. Що використовують інші дослідники у вашій галузі? Це може відрізнятися, і, можливо, найкраще дотримуватися прийнятих методів, щоб інші сприйняли вашу роботу. Я часто використовую тест Жарке-Бера, частково з цієї причини, та Андерсон-Дарлінг для порівняння.

Ви можете подивитися "Порівняння тестів на універсальну нормальність" (Seier 2002) та "Порівняння різних тестів на нормальність" (Yazici; Yolacan 2007) для порівняння та обговорення питань.

Тривіально також перевірити ці методи для порівняння в R, завдяки всім функціям розподілу . Ось простий приклад із імітованими даними (я не роздруковую результати, щоб заощадити місце), хоча потрібна буде більш повна експозиція:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Коли ви отримаєте результати різних тестів для різних розподілів, ви можете порівняти, які були найбільш ефективними. Наприклад, значення р для тесту Жарке-Бера вище повертало 0,276 для нормального розподілу (приймаючи) та <2,2е-16 для каучучого (відкидаючи нульову гіпотезу).


Дякую, Шейн, чудова відповідь! Ну, а "інші" з моєї галузі часто використовують SPSS, тому вони використовують Колмогорова-Смірнова (якщо вони взагалі перевіряють нормальність), хоча ІМХО тест Ліллієфорса - кращий вибір, коли дані збираються з вибірки (коли параметри невідомо). Мене вчили, що Шапіро-Вілк підходить для невеликих зразків, і просто хотів отримати більш детальну інформацію про "тести на нормальність малих зразків" ... До речі, я використовую nortest в R! =)
aL3xa

12

Для нормальності справжній Шапіро-Вілк має хорошу силу у досить малих зразках.

Основним конкурентом у дослідженнях, які я бачив, є більш загальний Андерсон-Дарлінг, який працює досить добре, але я б не сказав, що це було краще. Якщо ви можете уточнити, які альтернативи вас цікавлять, можливо, краща статистика буде більш очевидною. [редагувати: якщо ви оцінюєте параметри, тест AD повинен бути скоригований для цього.]

[Я настійно не рекомендую розглядати Жарке-Беру невеликими зразками (які, мабуть, більш відомі як Боуман-Шентон у статистичних колах - вони вивчали невеликий розподіл вибірки). Асимптотичний розподіл косоокості та куртозу - це не що інше, як розподіл з невеликим зразком - аналогічно банан не схожий на апельсин. Він також має дуже низьку потужність проти деяких цікавих альтернатив - наприклад, він має низьку потужність для вибору симетричного бімодального розподілу, який має куртоз, близький до нормального розподілу.]

Часто люди перевіряють придатність на те, що виявляється не особливо хорошими причинами, або вони відповідають на питання, відмінне від того, на яке вони насправді хочуть відповісти.

Наприклад, ви майже напевно вже знаєте, що ваші дані насправді не є нормальними (не зовсім), тому немає сенсу намагатися відповісти на питання, на яке ви знаєте відповідь, - і тест гіпотези насправді на нього не відповідає .

Зважаючи на те, що ви знаєте, що ви вже не маєте точної нормальності, ваш гіпотезний тест на нормальність справді дає відповідь на питання, наближене до "чи є мій вибірки достатньо великим, щоб забрати кількість ненормативності, яка у мене є", справжнє запитання, на яке вам цікаво відповісти, як правило, ближче до "який вплив цієї ненормативності на ці інші речі, які мене цікавлять?". Тест гіпотези - це вимірювання розміру вибірки, тоді як питання, яке вам цікаво відповісти, не дуже залежить від розміру вибірки.

Бувають випадки, коли тестування на нормальність має певний сенс, але такі ситуації майже ніколи не трапляються з невеликими зразками.

Чому ви тестуєте нормальність?


Дякуємо за чудову відповідь та чудове запитання після цього. Дуже важливо зрозуміти передумови проблеми. Що ж, я так багато разів бачив людей, які роблять t-тест, Pearson's r або ANOVA, не маючи уявлення про форму розподілу (яка часто важко перекошена) - параметричні методи "потребують" задоволених припущеннями щодо нормальності. У психології (яка є моєю сферою інтересів) ми часто маємо справу з невеликими зразками, тому мені потрібен відповідний тест на нормальність.
aL3xa

5
Але нормальність ніколи не задовольняється. Іноді це є розумним описом даних, але насправді вони не є нормальними. Хоча розумно перевіряти наявність ненормативності, коли ви припускаєте, це не особливо корисно перевірити (з причин, які я описав вище). Наприклад, я роблю qq-сюжет, але тест гіпотези дає відповідь на неправильне запитання в цій ситуації. t-тести та anova зазвичай працюють досить добре, якщо дистрибуції не сильно перекручені. Кращим підходом може бути використання процедур, які не передбачають нормальності - можливо, методи перекомпонування.
Glen_b -Встановіть Моніку

Або ви можете використовувати непараметричні тести, за вартістю меншої потужності. І статистикою нічого абсолютно не влаштовує, це не лише питання нормальності. Однак завантажувальний або скакуючий удар не є рішенням для введення когось до t-тесту та / або припущень ANOVA. Я сумніваюся, що методи перекомплектування взагалі вирішують питання нормальності. Слід перевірити нормальність як графічно (графік щільності, боксплот, QQplot, гістограма), так і "чисельно" (тести на нормальність, нахил, куртоз тощо). Що ти пропонуєш? Це зовсім поза темою, але як би ви перевірили, скажімо, припущення щодо нормальності ANOVA?
aL3xa

@ aL3xa Я вважаю, що підхід рандомізації є більш підходящим з огляду на ваше дослідницьке поле; незважаючи на те, що звичайні параметричні тести забезпечують гарне наближення до точних перестановочних тестів, непараметричні тести також передбачають певне припущення (наприклад, про форму розподілу). Мені навіть цікаво, як ми могли б насправді визначити, що таке відхилення від нормальності у дослідженні з невеликим зразком. Я думаю, вам слід попросити подальшого обговорення цього питання окремим запитанням.
chl

10

Існує ціла категорія Вікіпедії про тести на нормальність, включаючи:

Я думаю, що AD є, мабуть, найкращим з них.


1
Я згоден. Я провів швидкий тест на тест AD, Jarque-Bera і Spiegelhalter (1983), під нулем, з розміром вибірки 8, повторившись 10000 разів. Тест AD підтримує номінальний коефіцієнт відхилення та дає рівномірну величину, тоді як тест JB - жахливий, Spiegelhalter - середній.
shabbychef

1
@shabbychef Тест Жарке-Бера покладається на асимптотичну нормальність спотвореності та куртозу зразків, яка не працює добре навіть для n в низьких 100-х роках . Але для отримання бажаного коефіцієнта відхилення ви можете скорегувати критичні значення, наприклад, на основі результатів моделювання, як у розділі 4.1 Thadewald, T та H. Buning, 2004, тест Ярка -Бера та його конкурентів для нормальності тестування - порівняння потужності , дискусія Paper Economics 2004/9, Школа бізнесу та економіки, Вільний університет Берліна.
Срібна рибка

3

Для повноти економетрикам також подобається тест Кіфера і Лосося з їхньої статті 1983 року в «Економічних листах» - він підсумовує «нормалізовані» вирази косості та куртозу, які потім розподіляються в квадраті. У мене є стара версія C ++, яку я писав під час випускної школи, яку я міг перекласти на Р.

Редагувати: І ось нещодавній документ Біренса (повторного), що походить від Жарке-Бера та Кіфер-Салмона.

Редагувати 2: Я переглянув старий код, і, схоже, це справді те саме тест між Жарке-Берою та Кіфер-Салмоном.


2

Насправді випробування лосося Кіфер та тест Жарке Бера критично відрізняються, як показано в декількох місцях, але останнім часом тут - Моментні тести для стандартизованих розподілів помилок: простий надійний підхід Іі-Цін Чен. Випробування на лососі «Кіфер» за конструкцією є надійним у зв'язку з помилковими структурами типу ARCH на відміну від стандартного тесту Ярка Бера. Доповідь Yi-Ting Chen розробляє та обговорює те, що, на мою думку, є найкращими тестами на даний момент.


4
Здається, що Чен зосереджується на більшій кількості наборів даних, що має сенс, оскільки четвертий та шостий та більш високі моменти, що беруть участь у цих тестах, потребують певного часу, щоб досягти асимптотичного рівня. Але тести на розповсюдження зазвичай використовуються для наборів даних, менших ніж 250 значень (мінімум, вивчений у цій роботі). Насправді, більшість з них стають настільки потужними з більшими обсягами даних, що в таких програмах їх трохи більше, ніж думки. Або тут відбувається більше, ніж я бачу?
whuber

0

Для розмірів вибірки <30 суб'єктів вважається, що Шапіро-Вілк має потужну потужність - будьте обережні , регулюючи рівень значущості тесту, оскільки це може спричинити помилку типу II! [1]


У невеликих зразках корисність тестів, як правило, не в змозі відкинути нормованість.
Майкл Р. Черник

@MichaelChernick, що відбувається в конкретному випадку тоді? У чому причина того, що маленька маленька істота «класифікується» як ненормальна?
Аліакбар Ахмаді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.