Коли використовувати рамку Фішера та Неймана-Пірсона?


73

Останнім часом я багато читав про відмінності між методом тестування гіпотез Фішера та школою думки Неймана-Пірсона.

Моє запитання - ігнорування філософських заперечень на мить; коли ми повинні використовувати підхід Фішера до статистичного моделювання та коли слід використовувати метод Неймана-Пірсона за рівнем значущості тощо? Чи є практичний спосіб вирішити, яку точку зору підтримати у будь-якій практичній проблемі?


Де ви читали про це? Будь ласка, цитуйте свої джерела.
xmjx

8
Дивіться, наприклад, тут ( jstor.org/stable/2291263 ) або тут ( stats.org.uk/statistic-inference/Lenhard2006.pdf ).
Стийн

Відповіді:


83

Дозвольте почати з визначення умов дискусії, як я їх бачу. Значення р - це ймовірність отримати вибіркову статистику (скажімо, середнє значення вибірки) на відстань або далі від деякого еталонного значення, ніж ваша вибіркова статистика, якщо опорне значення було істинним параметром сукупності. Наприклад, p-значення відповідає на питання: яка ймовірність отримання вибірки означає IQ більше, ніжбалів від 100, якщо 100 справді означає середню кількість населення, з якого було взято ваш зразок. Тепер питання полягає в тому, як слід використовувати цю кількість для статистичного висновку? |х¯-100|

Фішер вважав, що значення p може бути інтерпретоване як суцільна міра доказів проти нульової гіпотези . Немає конкретного фіксованого значення, за якого результати стають «значущими». Як я зазвичай намагаюся донести це до людей, - це зазначити, що для всіх намірів і цілей, p = .049 і p = .051 є однаковою кількістю доказів проти нульової гіпотези (пор. @ Відповідь Генріка тут ) .

З іншого боку, Neyman & Pearson вважали, що ви можете використовувати p-значення як частину формалізованого процесу прийняття рішень . Після закінчення дослідження слід або відхилити нульову гіпотезу, або не відхилити нульову гіпотезу. Крім того, нульова гіпотеза може бути або правдою, або неправдою. Таким чином, є чотири теоретичні можливості (хоча в будь-якій ситуації існує лише дві): ви могли прийняти правильне рішення (не зможете відкинути істинну - або відхилити помилкову - нульову гіпотезу), або можете зробити тип Помилка I або II типу (відхиляючи справжній нуль або не відхиляючи помилкову нульову гіпотезу відповідно). (Зауважте, що значення p - це не те саме, що й рівень помилок типу I, про який я тут і розповідаю.) Значення р дозволяє процес прийняття рішення про те, чи слід відхиляти нульову гіпотезу, формалізувати чи ні. У рамках Неймана-Пірсона процес діяв би так: існує нулева гіпотеза, що люди вірять за замовчуванням за відсутності достатніх доказів протилежного, і альтернативна гіпотеза, яка, на вашу думку, може бути істинною. Існує декілька довгострокових помилок, з якими ви будете готові жити (зауважте, що немає причин, щоб вони були 5% та 20%). Враховуючи ці речі, ви проектуєте своє дослідження, щоб розмежувати ці дві гіпотези, зберігаючи, щонайбільше, коефіцієнт помилок, проводячи аналіз потужності та відповідно провівши своє дослідження. (Як правило, це означає мати достатню кількість даних.) Після закінчення дослідження ви порівнюєте своє р-значення зp < ααі відкинути нульову гіпотезу, якщо ; якщо це не так, ви не зможете відкинути нульову гіпотезу. Так чи інакше, ваше навчання закінчено, і ви прийняли своє рішення. p<α

Фішерський і Неймано-Пірсонський підходи не однакові . Центральне твердження рамки Неймана-Пірсона полягає в тому, що наприкінці вашого дослідження ви повинні прийняти рішення і піти піти. Нібито дослідник одного разу звернувся до Фішера з «незначними» результатами, попросивши його, що йому робити, і Фішер сказав: «Ідіть, отримайте більше даних».


Особисто я вважаю елегантну логіку підходу Неймана-Пірсона дуже привабливою. Але я не думаю, що це завжди доречно. На мій погляд, перш ніж розглянути рамки Неймана-Пірсона, повинні бути виконані щонайменше дві умови:

  1. Повинна бути якась конкретна альтернативна гіпотеза ( величина ефекту ), яка вас чомусь хвилює. (Мені байдуже, який розмір ефекту, яка ваша причина, чи це обґрунтована, чи узгоджена тощо. Тільки те, що у вас є.)
  2. Потрібно мати певні підстави підозрювати, що ефект буде «значущим», якщо альтернативна гіпотеза відповідає дійсності. (На практиці це, як правило, означає, що ви провели аналіз потужності та маєте достатньо даних.)

Якщо ці умови не виконані, значення p все ще може бути інтерпретоване відповідно до ідей Фішера. Більше того, мені здається, ймовірно, більшу частину часу ці умови не виконуються. Ось декілька простих прикладів, які приходять до тями, коли виконуються тести, але вищезазначені умови не виконуються:

  • омнібус ANOVA для моделі множинної регресії (можна зрозуміти, як всі гіпотезовані ненульові параметри схилу збираються разом, щоб створити параметр не центральності для розподілу F , але він не є віддаленим інтуїтивним, і я сумніваюсь у когось робить це)
  • значення тесту Шапіро-Вілка щодо нормальності ваших залишків в регресійному аналізі (яка величина ви переймаєтесь і чому? Яка потужність у вас повинна відхилити нуль, коли ця величина правильна?) W
  • значення тесту на однорідність дисперсії (наприклад, тест Левене ; ті ж коментарі, що і вище)
  • будь-які інші тести для перевірки припущень тощо.
  • t-тести коваріатів, окрім пояснювальної змінної, що становить первинний інтерес у дослідженні
  • початкові / розвідувальні дослідження (наприклад, пілотні дослідження)

Хоча це вже давня тема, відповідь дуже цінується. +1
Штійн

+1 Чудова відповідь! Мене вражає ваша здатність пояснювати ці поняття так стисло.
COOLSerdash

1
Це дійсно чудова відповідь, @gung
Патрік С. Форшер

5
AFAIK Нейман-Пірсон не використовував фішерські значення p і, таким чином, критерій "p <альфа". Те, що ви називаєте «Нейманом-Пірсоном», насправді - це «перевірка значущості гіпотези» (гібрид Фішера та НП), а не чиста теорія рішень Неймана-Пірсона.
Френк

"якщо опорне значення було справжнім параметром сукупності." Якщо бути точним, це "якщо розподіл ймовірностей такий, який вказаний в нульовій гіпотезі". Нульова гіпотеза не просто вказує підсумкові статистичні дані, такі як середнє значення, вона визначає весь розподіл ймовірностей. Часто сім'я розподілу приймається як неявна (наприклад, звичайний розподіл), і тоді, вказуючи параметри, вказується розподіл.
Накопичення

18

Практичність на очах у глядача, але;

  • Тестування на значущість Фішера можна інтерпретувати як спосіб вирішити, чи є в даних дані будь-який цікавий `сигнал 'чи ні. Ми або відкидаємо нульову гіпотезу (яка може бути помилкою типу I), або взагалі нічого не кажемо. Наприклад, у багатьох сучасних програмах 'omics' ця інтерпретація підходить; ми не хочемо робити занадто багато помилок типу I, ми хочемо витягнути най хвилюючі сигнали, хоча ми можемо пропустити їх.

  • Гіпотеза Неймана-Пірсона має сенс, коли між нами є дві непересічні альтернативи (наприклад, Хіггс Босон є чи не існує). Окрім ризику помилки типу I, ми також можемо зробити помилку типу II - коли є реальний сигнал, але ми кажемо, що його немає, приймаючи «нульове» рішення. Аргумент NP полягав у тому, що, не роблячи занадто багато показників помилок типу I, ми хочемо мінімізувати ризик помилок типу II.

Часто жодна система не здасться ідеальною - наприклад, ви можете просто захотіти бальну оцінку та відповідну міру невизначеності. Крім того, це може не мати значення, яку версію ви використовуєте, оскільки ви повідомляєте про значення p і залишаєте тестову інтерпретацію читачеві. Але щоб вибрати між підходами, описаними вище, визначте, (чи ні) помилки типу II стосуються вашої програми.


5

Вся справа в тому, що ви не можете ігнорувати філософські відмінності. Математична процедура в статистиці не просто стоїть окремо, як щось, що ви застосовуєте без деяких гіпотез, припущень, теорії ... філософії.

Це означає, що якщо ви наполягаєте на дотриманні частофілістських філософій, може виникнути кілька дуже специфічних проблем, де Нейман-Пірсон дійсно потребує розгляду. Всі вони потрапляють до класу повторних тестувань, таких як контроль якості або fMRI. Заздалегідь встановлення конкретної альфа та врахування всього типу I, типу II та силового блоку стає важливішим у цій настройці.


Я не наполягаю на дотриманні частотистської статистики, але мені було просто цікаво, чи існують ситуації, коли прийняття точки зору Фішера чи Неймана-Пірсона може бути природним. Я знаю, є філософська відмінність, але, можливо, є і практична сторона, яку слід враховувати?
Штийн

3
Гаразд, добре, що я вже сказав ... Неймана-Пірсона насправді хвилювали ситуації, коли ти робиш багато і багато тестів, не маючи реальних теоретичних підстав для кожного. Точка зору Фішера насправді не вирішує цю проблему.
Джон

1

Я розумію: значення p - це сказати нам, у що вірити (перевірка теорії з достатніми даними), тоді як підхід Неймана-Пірсона - це сказати нам, що робити (приймаючи найкращі можливі рішення навіть з обмеженими даними). Тому мені здається, що (мале) значення p є більш суворим, тоді як підхід Неймана-Пірсона є більш прагматичним; Можливо, тому значення p використовується більше при відповіді на наукові запитання, тоді як Неймана та Пірсона більше використовують для прийняття статистичних / практичних рішень.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.