Чому тестування частої гіпотези стає упередженим щодо відкидання нульової гіпотези досить великими зразками?


46

Я щойно читав цю статтю про фактор Байєса для абсолютно незв'язаної проблеми, коли натрапив на цей уривок

Тестування гіпотез за допомогою факторів Байєса є більш надійним, ніж тестування частої гіпотези, оскільки форма Байєса уникає упередженості вибору моделі, оцінює докази на користь нульової гіпотези, включає невизначеність моделі та дозволяє порівнювати невкладені моделі (хоча, звичайно, модель повинна мають однакову залежну змінну). Також тести на частоту значущості стають упередженими на користь відкидання нульової гіпотези з досить великим розміром вибірки. [наголос додано]

Цю заяву я бачив і раніше, у статті Карла Фрістона 2012 року в NeuroImage , де він називає це помилковістю класичного умовиводу .

У мене були проблеми з пошуку справді педагогічного висновку, чому це повинно бути правдою. Конкретно мені цікаво:

  1. чому це відбувається
  2. як уберегтися від цього
  3. якщо цього не зробити, як це виявити

7
Це дещо дискусійно, тому що це неправда, коли нуль є буквально, абсолютно правдивим, але оскільки це так рідко буває (через всілякі складності, як хибні кореляції), це, мабуть, стосується більшості практичних застосувань. Гіпотетично кажучи, можна було виявити найслабші хибні кореляції (наприклад, r = .001) через ланцюжок посередників, довгі сотні змінних, незважаючи на аналогічну кількість неконтрольованих модераторів, якщо зразок був достатньо колосальним. Можливо, ці відносини насправді існують, тому, чи справді це "упередженість", все ще є дещо дискусійним ІМО ...
Нік Стаунер

@ NickStauner, А це насправді має багато сенсу! Дякую за інтуїтивне пояснення!
blz

3
Tal Яркон написав дуже повчальну критику Friston в статті: talyarkoni.org/blog/2012/04/25 / ...
Йон

@jona, здається, я наткнувся на всю натовп cogsci тут =) Дякую за довідку, це справді виглядає як добре читання!
blz

8
Враховуючи припущення, це твердження здається суто помилковим, як воно є, але воно стає справжнім питанням (що при досить великих зразках, NHST стане майже впевненим, щоб відкинути помилкову нуль, незалежно від того, наскільки крихітний ефект) . Коли люди виявляють, що це проблема, зазвичай це вказує, що тестування гіпотез - це не те, що їм потрібно. У цій відповіді
Glen_b

Відповіді:


44

pp

Відповідь на питання 2: У рамках тестування частої гіпотез гіпотез можна захищати це, не роблячи висновку виключно про виявлення різниці . Наприклад, можна поєднувати умовиводи про різницю та еквівалентність, щоб не надавати перевагу (або плутати!) Тягар доказування доказів ефекту проти доказів відсутності ефекту . Докази відсутності ефекту походять, наприклад:

  1. два односторонні тести на еквівалентність (TOST),
  2. рівномірно найпотужніші тести на еквівалентність та
  3. 12αα

Що стосується цих підходів, це апріорне рішення про те, який розмір ефекту є відповідною різницею, і нульова гіпотеза, що формулюється з точки зору різниці, щонайменше такої ж великої, як і те, що вважається релевантним.

0+0

Чотири можливості від комбінованих тестів на різницю та тестів на еквівалентність

Зверніть увагу на верхній лівий квадрант: тест, що має перевагу, - це те, коли так, ви відкидаєте нульову гіпотезу про різницю, але ви також відкидаєте нульову гіпотезу відповідної різниці, так що так, є різниця, але ви апріорі вирішили, що вас не хвилює це тому, що воно занадто мало.

Відповідь на питання 3: Див. Відповідь на 2.


2
Такі відповіді, чому я продовжую приходити сюди. Дякую!
blz

2
1αα2α

Щоб доповнити відповідь на питання 1, відповідна публікація в блозі від Cosma Shalizi

2
Я трохи здивований, що всі вважають це питання настільки корисним, хоча "Відповідь на запитання 1" насправді набагато правильніше відповів Майкл Лев - Алексіс, оскільки, здається, майже зрозуміло, що це буде залишатися вгору, можливо, ви могли б виправити свою відповідь сказати, що, математично кажучи, тести на гіпотезу насправді НЕ СВЯТЛЕНІ великим розміром вибірки, згідно з нормальним визначенням зміщення (навпаки, насправді невеликий розмір вибірки може бути проблемою)!
Флоріан Хартіг

3
Я розумію проблему, і я погоджуюсь з оцінкою - це неінформативно чи вводити в оману тест на гіпотезу, коли! H0 в першу чергу нескінченно вірогідний, і у вас є сила, близька до 1. Але це не робить тест упередженим, якщо ваше визначення упередженості не полягає в тому, що метод дає правильний результат до питання, яке, на вашу думку, не слід ставити.
Флоріан Хартіг

21

Часті випробування з великими зразками НЕ виявляють упередженості щодо відкидання нульової гіпотези, якщо нульова гіпотеза правдива. Якщо припущення тесту справедливі і нульова гіпотеза є вірною, то більше ризику великої вибірки, що призводить до відкидання нульової гіпотези, є більше, ніж малого зразка. Якщо нуль не відповідає дійсності, то ми, безумовно, будемо раді його відхилити, тому той факт, що великий зразок частіше відкидає помилкову нуль, ніж малий зразок, - це не «упередженість», а відповідна поведінка.

Страх перед "переборщими експериментами" ґрунтується на припущенні, що не годиться відкидати нульову гіпотезу, коли це майже вірно. Але якщо це майже майже правда, то це насправді помилково! Відхиліться, але не не помічайте (і чітко повідомляйте) про помічений розмір ефекту. Це може бути тривіально мало і тому не заслуговує серйозного розгляду, але рішення з цього питання повинно бути прийняте після розгляду інформації поза тестом гіпотези.


2
00+really frickin' tiny

6
@ Алексис Прочитайте другий параграф ще раз. Я абсолютно згоден, що насправді крихітні крихітні не є істотно важливими, але це також логічно не дорівнює нулю.
Майкл Лев

6
Вибачте за коментар, який не вартий публіці, але @MichaelLew, мені дуже сподобалась ваша відповідь. Перше речення є досить важливим, і я не думаю, що воно було ефективно висвітлено у відповіді Алексіса (що, звичайно, також приємно).
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.