Інтерпретація р-значення при тестуванні гіпотез


36

Нещодавно я натрапив на статтю "Незначність тестування значущості гіпотези", Джефф Гілл (1999) . Автор підняв кілька поширених помилок щодо тестування гіпотез та p-значень, щодо яких у мене є два конкретні питання:

  1. Значення р - технічно , яке, як вказує папір, взагалі нічого не говорить нам про P ( H 0 | o b s e r v a t i o n )P(observation|H0)P(H0|observation), якщо ми не знаємо граничних розподілів, що рідко трапляється при "повсякденному" тестуванні гіпотез. Коли ми отримуємо невелике p-значення і "відкидаємо нульову гіпотезу", що саме таке імовірнісне твердження, яке ми робимо, оскільки ми не можемо нічого сказати про ?P(H0|observation)
  2. Друге питання стосується конкретного твердження зі сторінки 6 (652) статті:

Оскільки p-значення або діапазон p-значень, вказаних зірками, не задаються апріорі, це не довгострокова ймовірність помилки типу I, але зазвичай трактується як така.

Хтось може допомогти пояснити, що мається на увазі під цим твердженням?


TY для посилання на статтю
Людовик Куті

@ezbentley: можливо, цікаво взяти на себе мою відповідь: stats.stackexchange.com/questions/166323/…

Відповіді:


33

(Технічно P-значення - це ймовірність спостереження за даними принаймні такою ж крайньою, як і фактично спостережувані, враховуючи нульову гіпотезу.)

Q1. Рішення про відхилення нульової гіпотези на основі невеликого значення P зазвичай залежить від "диз'юнкції Фішера": або трапилася рідкісна подія, або нульова гіпотеза помилкова. Насправді, рідкість події - це те, про що говорить вам значення P, а не ймовірність того, що нуль є помилковим.

Ймовірність того, що нуль є помилковим, може бути отримана з експериментальних даних лише за допомогою теореми Байєса, яка вимагає уточнення "попередньої" ймовірності нульової гіпотези (імовірно, що Гілл називає "граничними розподілами").

Q2. Ця частина вашого питання набагато складніше, ніж може здатися. Існує велика плутанина щодо P-значень та коефіцієнтів помилок, яка, імовірно, стосується того, з чим Gill має на увазі, "але зазвичай трактується як таке". Поєднання фішерських Р-значень із коефіцієнтами помилок Неймана-Пірсона було названо невідповідним мешметом, і воно, на жаль, є дуже поширеним. Тут жодна коротка відповідь не буде цілком адекватною, але я можу вказати на пару хороших паперів (так, одна моя). І те й інше допоможе вам осмислити папір Gill.

Hurlbert, S., & Lombardi, C. (2009). Остаточний крах теоретичної бази рішень Неймана-Пірсона та підйом неофішерських країн. Annales Zoologici Fennici, 46 (5), 311–349. (Посилання на папір)

Лев, MJ (2012). Погана статистична практика у фармакології (та інших основних біомедичних дисциплінах): ви, мабуть, не знаєте P. British Journal of Pharmacology, 166 (5), 1559–1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Посилання на папір)


Дякуємо за роз’яснення. Технічно неправильно робити такі заяви, як "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? Здається, джерело плутанини полягає в тому, що не існує реальної імовірнісної претензії до нульової гіпотези, коли ми кажемо, що нуль "відхилено".

2
@ezbentley, це дійсно залежить від того, що ти маєш на увазі під значущим. Це слово не є дуже значущим у більшості контекстів, оскільки воно було забруднене гібридом Фішера-Неймана-Пірсона. Якщо ви отримали дуже мале значення P, то справедливо сказати, що справжня середня величина, ймовірно, не дорівнює нулю, але важливо сказати, що було середньозваженим, і вказати його мінливість (SEM або довірчий інтервал), і не не забудьте сказати, який був розмір вибірки. Значення P не є заміною для уточнення розміру спостережуваного ефекту.
Майкл Лев

Дякую за пояснення. Мені потрібно заглибитися в парадигму Фішера та Неймана-Пірсона.

@Michael Lew: Можливо, це може бути цікаво подивитися на мою відповідь: stats.stackexchange.com/questions/166323/…

Ваш абзац під Q1, мабуть, найкраще пояснення проблеми, яку я бачив досі. Дякую.
Максим.К

22

+1 до @MichaelLew, який дав вам хорошу відповідь. Можливо, я все-таки можу зробити свій внесок, запропонувавши спосіб думати про Q2. Розглянемо таку ситуацію:

  • Нульова гіпотеза вірна. (Зверніть увагу, що якщо нульова гіпотеза не відповідає дійсності, помилки типу I не можливі, і не ясно, яке значення має значення значення.) p
  • встановлено умовно на рівні 0,05 . α0.05
  • Обчислена -значення становить 0,01 . p0.01

Тепер вірогідність отримання даних як екстремальних або більш екстремальних, ніж ваші дані, становить 1% (саме це означає значення значенняp ). Ви відкинули нульову гіпотезу, зробивши помилку I типу . Чи правда, що частота помилок типу I в цій ситуації також становить 1%, про що багато людей можуть інтуїтивно зробити висновок? Відповідь - ні . Причина полягає в тому, що якби ви отримали -значення 0,02 , ви все одно відкинете нуль. Насправді ви би відхилили нуль, навіть якби p було 0,04 ˉ 9 , і в кінцевому рахунку p до цього великогоp0.02p0.049¯p 5% часу і всі подібні відхилення будуть помилками I типу. Таким чином, частота помилок типу I довгострокового періоду становить 5% (де ви встановили α ). α

(Розкриття: я не читав папери Гілла, тому не можу гарантувати, що це саме те, що він мав на увазі, але це має сенс твердження, що значення значення не є [обов’язково] таким же, як частота помилок типу I довгострокового циклу. )p


1
Працюючи в полі (epi), де часто буває вкрай важко повірити, що гіпотеза H_0 = 0 насправді відповідає дійсності, я вважаю, що цей пункт не помічений і заслуговує на значно більше уваги.
боскович

1
α

1
+1, але припущення про те, що значення P-значення незрозуміле, коли нуль є хибним, вводить в оману. Чим менше значення Р, тим більша розбіжність між нульовим та спостережуваним. Чим більший розмір вибірки, тим ближче можна вважати, що справжній розмір ефекту до розміру спостережуваного ефекту. Дуже корисно відзначити, що тестування на значимість є аналогічним оцінці.
Майкл Лев

3
@MichaelLew, я не впевнений, що значення p означає ці речі самостійно. У поєднанні w / N (а конкретно, утримуючи N постійною) менший p буде відповідати більшій невідповідності b / t нулю та спостережуваному. Вже тоді це більше щось, що можна зробити з p, а не щось p означає . Правда також, що розміри ефекту, що спостерігаються з більшим N, повинні бути ближчими до справжніх ЕС, але мені менш зрозуміло, яку роль там грає p. EG, без хибного нуля, справжній ефект все ще може бути дуже малим, & w / великий N, ми очікуємо, що спостережуваний ES буде близьким, але p все ще може бути великим.
gung - Відновіть Моніку

1
...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"α

8

Я хотів би зробити коментар, що стосується "незначущості тестування значимості нульової гіпотези", але який не відповідає на питання ОП.

pH0H0:{θ=0}θ=ϵϵϵ0ϵ0


3
+1 Так, справжня проблема звичайного тестування гіпотез полягає в тому, що він відповідає на питання, на яке вам не дуже цікаво відповісти, тобто "чи є вагомі докази різниці?", А не "чи є свідчення суттєвої різниці? ". Звичайно, те, що дійсно бажано, це, як правило, "яка ймовірність того, що моя гіпотеза дослідження є істинною?", Але на це не можна відповісти в рамках частістів. Помилкове тлумачення, як правило, виникає внаслідок спроб трактування частолістської проби в баєсівських термінах.
Дікран Марсупіал

1
Недоцільно розділяти значення P-значень та розмір вибірки. Менше значення P вказує на більший розмір ефекту при будь-якому конкретному розмірі вибірки, а для будь-якого конкретного значення P більший розмір вибірки вказує, що справжній розмір ефекту, ймовірно, наближається до розміру ефекту, що спостерігається. Тести на значущість слід продумати в контексті оцінки, а не помилок. Більш великий зразок завжди дає більше інформації - як його інтерпретувати, залежить від експериментатора. Скарга на незначний ефект вибірки є лише проблемою для тестування гіпотез Неймана-Пірсона.
Майкл Лев
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.