"Зворотний" Шапіро – Вілк


11

Тест Шаріпо-Вілка, згідно з Вікіпедією , перевіряє нульову гіпотезу ( ) "Населення нормально розподілене".H0

Я шукаю аналогічний тест на нормальність з "Населення нормально не розподілене".H0

Провівши такий тест, я хочу обчислити -значення для відхилення на рівні значущості \ alpha iff p <\ alpha ; доказуючи, що моє населення нормально розподілене.H 0 αpH0αp<α

Зауважте, що використання тесту Шаріпо-Вілка та прийняття H0 iff p>α є невірним підходом, оскільки це буквально означає "у нас недостатньо доказів, щоб довести, що H0 не відповідає".

Пов'язані теми - значення p -значення , чи тестування на нормальність марне? , але я не бачу вирішення своєї проблеми.

Запитання: Який тест я повинен використовувати? Чи реалізовано це в R?


6
Нульова гіпотеза про "нормально розподіленому" не використовується. Цей простір включав би всі дистрибутиви довільно близькі, але не зовсім звичайні. Ви даєте мені будь-який обмежений набір даних. Я вибираю емпіричний розподіл, який не є нормальним, і тому належить до нульового простору. Неможливо відхилити.
А. Вебб

5
Це питання, яке є вашим попереднім, задає неможливе. Правильна відповідь пояснить, як працюють тести статистичної гіпотези, саме тому я вказав на stats.stackexchange.com/questions/31 у коментарі до вашого іншого питання.
whuber

5
Хоча нульова гіпотеза "звичайно не розподіляється" неможлива, нульова гіпотеза "розподіляється з абсолютними значеннями нормальної статистики корисності, що принаймні настільки ж відрізняється, як " по лінії тесту на еквівалентність. Іншими словами, треба мати можливість протестувати проти нуля "ненормального хоча б на цьому багато ". @gung запропонував саме це у своїй відповіді. ε
Олексій

Відповіді:


10

Там немає такого поняття , як тест , що ваші дані будуть нормально розподілені. Існують лише тести, які ваші дані зазвичай не розповсюджуються. Таким чином, є такі тести, як Shapiro-Wilk, де (є багато інших), але немає тестів, коли нульовим є те, що населення не нормальне, а альтернативна гіпотеза полягає в тому, що населення нормальне. Н0:ноrмал

Все, що ви можете зробити - це зрозуміти, який вид відхилення від нормальності, який ви хвилюєте (наприклад, косоокість), і наскільки велике це відхилення повинно бути, перш ніж воно вас турбує. Тоді ви можете перевірити, чи відхилення від ідеальної нормальності у ваших даних було менше критичного. Для отримання додаткової інформації про загальну ідею це може допомогти прочитати мою відповідь тут: Чому статистики кажуть, що несуттєвий результат означає «ви не можете відхилити нуль» на відміну від прийняття нульової гіпотези?


5

Я хочу обчислити p-значення для відхилення H0 на рівні значущості α iff p <α; доказуючи, що моє населення нормально розподілене.

Нормальний розподіл виникає, коли дані генеруються за допомогою ряду адитивних подій в iid (див. Зображення quincunx нижче). Це означає, що ніяких зворотних зв'язків і кореляцій, це не схоже на процес, який веде ваші дані? Якщо ні, це, мабуть, не нормально.

Не виключено, що у вашому випадку може виникнути тип процесу. Найближче до якого можна довести "доведення", це зібрати достатньо даних, щоб виключити будь-які інші розповсюдження, які люди можуть придумати (що, мабуть, не практично). Інший спосіб - вивести нормальний розподіл з якоїсь теорії разом з деякими іншими прогнозами. Якщо дані узгоджуються з усіма ними, і ніхто не може придумати іншого пояснення, то це буде хорошим свідченням на користь нормального розподілу.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Тепер, якщо ви не очікуєте якого-небудь конкретного розподілу апріорі, можливо, все-таки розумним буде використовувати звичайний розподіл для узагальнення даних, але визнайте, що це, по суті, вибір із незнання ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). У цьому випадку ви не хочете знати, чи нормально розподіляється популяція, скоріше ви хочете знати, чи нормальний розподіл є розумним наближенням до того, яким буде ваш наступний крок.

У такому випадку вам слід надати свої дані (або згенеровані схожі дані) разом із описом того, що ви плануєте зробити з цим, а потім запитати "Якими способами припускати нормальність у цьому випадку мене вводить в оману?"


Я фактично знаю, що дані є нормальними (незалежне вимірювання на незалежних комп'ютерах), проте мені потрібно зробити припущення для моєї дипломної роботи .. дякую за роз’яснення та приклад :)
petrbel

1
До речі, Крігер висловив прекрасну критику щодо використання Гвіртона Quincunx у Крігері , штат Нью-Йорк (2012). Хто і що таке "населення"? історичні дебати, поточні суперечки та наслідки для розуміння "здоров'я населення" та виправлення нерівностей у галузі охорони здоров'я. Квартал Мільбанку, 90 (4): 634–681.
Олексій

@petrbel Ця ситуація тонко відрізняється від описаної вище. Ви можете розробити quincunx, коли кожне спостереження є iid, але процес, який генерує дані, не є. Дивіться тут для прикладу звичайного журналу: LIMPERT et al. Розподіл звичайних журналів у науках: клавіші та підказки. Травень 2001 р. / Вип. 51 № 5. Біонаука.
Ливид

1
@Alexis Я бачу, що Krieger (2012) відтворює фігуру від Limpert et al. (2001) і зазначає пропущений петрбелем: "зміна структури може змінити ймовірності результатів навіть для однакових об'єктів, тим самим створивши різні розподіли населення".
Livid

2

Ви ніколи не зможете "довести" припущення щодо нормальності у своїх даних. Пропонуйте лише докази проти цього як припущення. Тест Шапіро-Вілка - це один із способів цього і весь час використовується для обгрунтування припущення про нормальність. Аргументація полягає в тому, що ви починаєте, приймаючи Нормальність. Ви запитаєте, чи мої дані підказують, що я роблю дурне припущення? Тож ви йдете вперед і випробовуєте це з Шапіро-Вільком. Якщо ви не зможете відкинути нульову гіпотезу, то дані не дозволяють зробити дурне припущення.

Y,Х


Ця практика, яку ви описуєте, - це саме невірний підхід, про який йдеться. Тести зазвичай послідовні, тому чим більший розмір вибірки, тим більша ймовірність оголосити припущення про нормальність дурною ідеєю. Це саме по собі нерозумно, оскільки при більших розмірах вибірки припущення про нормальність є менш критичним через асимптотичну стійкість більшості процедур.
Хорст Грюнбуш

@ HorstGrünbusch Чи не погоджуєтесь ви, що тест Шапіро-Вілка є коректним способом перевірити припущення про те, що дані є нормальними?
TrynnaDoStat

Якщо ви згодні, що це правильний підхід, то я не впевнений, з чим ви не згодні у своїй відповіді.
TrynnaDoStat

2α

@ HorstGrünbusch Здається, ваша проблема з моєю відповіддю стосується ідеї тестування гіпотез загалом. Зокрема, той факт, що у багатьох ситуаціях тести гіпотез будуть відхиляти нуль з ймовірністю 1, оскільки розмір вибірки наближається до нескінченності.
TrynnaDoStat
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.