Чи менші р-значення більш переконливі?


31

Я читав на , коефіцієнтах помилок типу 1, рівнях значущості, обчисленні потужності, розмірах ефектів та дебатах Фішера проти Неймана-Пірсона. Це залишило мене відчуття трохи переповненого. Прошу вибачення за стіну тексту, але я вважав, що потрібно надати огляд мого сучасного розуміння цих понять, перш ніж перейти до своїх актуальних питань.p


З того, що я зібрав, -значення - це просто міра здивування, ймовірність отримання результату хоча б настільки ж екстремальної, враховуючи, що нульова гіпотеза справжня. Спочатку Фішер мав на меті бути суцільним заходом.p

У рамках Неймана-Пірсона ви заздалегідь вибираєте рівень значущості та використовуєте це як (довільну) точку відсічення. Рівень значущості дорівнює частоті помилок типу 1. Це визначається частотою довгого запуску, тобто якщо ви повторили б експеримент 1000 разів і нульова гіпотеза вірна, приблизно 50 з цих експериментів призвели б до значного ефекту через мінливості вибірки. Вибираючи рівень значущості, ми захищаємо себе від цих помилкових позитивів з певною вірогідністю. -значення традиційно не відображаються в цих рамках.P

Якщо ми знайдемо -значення 0,01, це не означає, що коефіцієнт помилок типу 1 дорівнює 0,01, помилка типу 1 заявляється апріорі. Я вважаю, що це один з головних аргументів у дебатах Фішера проти НП, оскільки часто повідомляються як 0,05 *, 0,01 **, 0,001 ***. Це може ввести людей в оману, кажучи, що ефект є значним при певній значенні p , а не при певному значущому значенні.ppp

Я також усвідомлюю, що значення p значення є функцією розміру вибірки. Тому його не можна використовувати як абсолютний вимір. Невелике p -значення може вказувати на невеликий, нерелевантний ефект у великому експерименті зразка. Щоб протистояти цьому, важливо провести розрахунок розміру потужність / ефект при визначенні розміру вибірки для вашого експерименту. P -значення говорять нам про те, чи є ефект, а не наскільки він великий. Дивіться Sullivan 2012 .

Моє запитання: Як я можу погодити факти, що p -значення є мірою здивування (менший = більш переконливий), і в той же час його не можна розглядати як абсолютний показник?

Що мене бентежить, це таке: чи можемо ми бути впевненішими у малому -значенні, ніж у великому? У фішерському сенсі я б сказав так, ми більше здивовані. У рамках НП вибір меншого рівня значущості означатиме, що ми сильніше захищаємо себе від помилкових позитивних результатів.p

Але з іншого боку, -значення залежать від розміру вибірки. Вони не є абсолютною мірою. Таким чином, ми не можемо просто сказати, що 0,001593 є більш значущим, ніж 0,0439. І все-таки, що мається на увазі в рамках Фішера: ми були б більш здивовані такому надзвичайному значенню. Існує навіть дискусія про те, що термін є дуже значущим як неправильне слово : чи неправильно називати результати "високозначущими"?p

Я чув, що в деяких галузях науки вважаються важливими лише тоді, коли вони менші за 0,0001, тоді як в інших галузях значення приблизно 0,01 вже вважаються дуже значущими.p

Пов’язані запитання:


Крім того, не забувайте, що "значне" значення p не говорить вам нічого про вашу теорію. Це визнають навіть найзапекліші захисники: Точність статистичного значення: обгрунтування, обгрунтованість та корисність. Сіу Л. Чау. НАВЧАЛЬНІ ТА НАВЧАЛЬНІ НАУКИ (1998) 21, 169–239 Дані інтерпретуються, коли вони перетворюються на докази. Припущення, що тлумачення ґрунтується на необхідності перерахувати, а потім, якщо можливо, перевірити. Що вимірюється?
Livid

2
+1, але я б закликав вас зосередити це питання та видалити побічні питання. Якщо вас цікавить, чому деякі люди стверджують, що довірчі інтервали кращі, ніж значення p, задайте окреме запитання (але переконайтеся, що його раніше не задавали).
Амеба каже: Відновити Моніку

3
Крім того, як ваше запитання не є дублікатом Чому нижчі р-значення не є більшими доказами проти нуля? Ви бачили цю нитку? Можливо, ви можете додати його до списку в кінці своєї публікації. Дивіться також подібне запитання. Який сенс порівнювати значення p між собою? , але я неохоче рекомендую цю тему, оскільки прийнята відповідь ІМХО є неправильною / оманливою (див. обговорення в коментарях).
Амеба каже: Відновити Моніку

2
Гельман має велике значення, щоб сказати про p-значеннях. наприклад, 1. тут (Gelman and Stern, Am.Stat. 2006 pdf) , 2. тут, у своєму блозі , 3. його знову блог, можливо, також 4. тут (Gelman, 2013 опублікував коментар до іншого документу, pdf)
Glen_b - Відновіть Моніку

2
Дякую за посилання, @Glen_b; Я добре знаю газету Gelman & Stern і часто посилаюся на неї, але раніше не бачив цього документу в 2013 році або його обговорення. Однак я хотів би застерегти ОП щодо тлумачення Gelman & Stern у контексті його / її питання. G&S пропонують хороший приклад з двома дослідженнями, що оцінюють ефект як та 10 ± 10 ; в одному випадку p < 0,01 , в іншому p > 0,05 , але різниця між оцінками не суттєва. Це важливо пам’ятати, але якщо зараз, слідуючи за ОП, ми запитуємо, чи є перше дослідження більш переконливим, я, безумовно, сказав би так. 25±1010±10p<0.01p>0.05
amoeba повідомляє про відновлення Моніки

Відповіді:


18

Чи менші -значення "більш переконливі"? Так, звичайно, є.p

У рамках Фішера -значення - це кількісна оцінка кількості доказів проти нульової гіпотези. Докази можуть бути більш-менш переконливими; чим менша р -значення, тим вона переконливіша. Слід зазначити , що в будь-якому даному експерименті з фіксованим розміром вибірки п , то р -значення монотонно залежить від розміру ефекту, так як @Scortchi красиво вказує у своїй відповіді (+1). Так менші р-значення відповідають більшим розмірам ефекту; звичайно, вони переконливіші!ppnpp

У рамках Неймана-Пірсона мета - отримати бінарне рішення: або докази є "значущими", або їх немає. Вибираючи поріг , ми гарантуємо, що у нас не буде більше α помилкових позитивних результатів. Зауважте, що різні люди можуть мати різні значення α при перегляді одних і тих же даних; можливо, коли я читаю статтю з поля, до якого я скептично ставлюсь, я особисто не вважаю «значущими» результати, наприклад, p = 0,03, хоча автори називають їх значущими. Моя особиста α може бути встановлена ​​на 0,001 або щось інше. Очевидно, що нижчий повідомлений pαααp=0.03α0.001p-значу, тим більш скептично налаштованих читачів це зможе переконати! Отже, знову ж таки, нижчі -значення є більш переконливими.p

В даний час стандартна практика полягає в поєднанні підходів Фішера і Неймана-Пірсона: якщо , то результати називаються "значущими", а р -значення [точно або приблизно] повідомляється і використовується як міра переконливості (відмічаючи його із зірками, використовуючи вирази як «дуже значущі» тощо); якщо p > α , то результати називаються "несуттєвими" і це все.p<αpp>α

Зазвичай це називається "гібридним підходом", і справді це гібрид. Деякі люди стверджують, що цей гібрид є некогерентним; Я схильний не погоджуватися. Чому було б недійсно робити дві дійсні речі одночасно?

Подальше читання:


1
(+1) Але дивіться розділ 4.4 статті Майкла Лева: деякі з них швидше прирівнюють кількість доказів з вірогідністю, ніж із значенням p, що має різницю при порівнянні p-значень експериментів з різними просторами вибірки. Тому вони говорять про "індексацію" або "калібрування" доказів / вірогідності.
Scortchi

Вибачте, я хотів сказати, точніше, що, на цей погляд, відносне "доказ" (або "підтримка") для різних значень, який може взяти параметр, - це відношення їхніх імовірнісних функцій, оцінених за спостережуваними даними. Так, у прикладі Лева одна голова з шести закидів є тим самим свідченням проти нульової гіпотези, незалежно від того, схема вибірки є двочленною або негативною двочленною; проте значення p різняться - ви можете сказати, що за однією схемою вибірки ви мали меншу ймовірність накопичити стільки доказів проти нуля. (Звичайно, права на слово "докази", як і на "значні", ...
Scortchi - Reinstate Monica

... ще не встановлено твердо.)
Scortchi - Відновіть Моніку

Хм, дякую, що звернули мою увагу на цей розділ; Я читав її раніше, але, мабуть, пропустив її значення. Треба сказати, що наразі мене це бентежить. Лев пише, що значення p не слід «коригувати», враховуючи правила зупинки; але я не бачу жодних коригувань у його формулах 5-6. Якими були б "невідрегульовані" p-значення?
Амеба каже: Відновіть Моніку

1
@Scortchi: Хм. Я дійсно не розумію, чому одне з цих р-значень "скориговано", а інше - ні; чому б не навпаки? Я зовсім не переконаний у цьому аргументі Лева, і навіть не цілком його розумію. Думаючи про це, я знайшов запитання Лева з 2012 року про принцип ймовірності та p-значення та розмістив там відповідь. Справа в тому, що для отримання різних p-значень не потрібні різні правила зупинки; можна просто розглянути різні статистичні дані. Можливо, ми можемо продовжувати обговорювати там, я буду вдячний за ваш внесок.
амеба каже: Відновіть Моніку

9

Я не знаю, що мається на увазі, коли менші р-значення "кращі" чи ми "впевненіші в них". Але стосовно p-значень як міри того, наскільки нас би дивували дані, якщо ми вважаємо нульовою гіпотезою, здається досить розумною; p-значення є монотонною функцією обраної статистики тестудля вимірювання невідповідності нульової гіпотези в напрямку, яке вас цікавить, калібрування її відповідно до її властивостей за відповідною процедурою відбору проб з популяції або випадкового призначення експериментальних методів лікування. "Значущість" стала технічним терміном для позначення p-значень, що знаходяться вище або нижче деякого визначеного значення; таким чином, навіть ті, хто не зацікавлений у визначенні рівнів значущості та прийнятті чи відхиленні гіпотез, як правило, уникають фраз, таких як "високозначущі" - більш дотримання конвенції.

Що стосується залежності р-значень від розміру вибірки та розміру ефекту, можливо, виникає деяка плутанина, тому що, наприклад, може здатися, що 474 голови з 1000 кидок повинні бути менш дивними, ніж 2 з 10 для того, хто вважає монету справедливою - адже Частка вибірки лише колись відхиляється від 50% у першому випадку, але значення р приблизно однакові. Але правдиві чи хибні не визнають ступенів; p-значення робить те, що про це задається: часто довірчі інтервали для параметра є дійсно тим, що хочеться оцінити, наскільки точно виміряно ефект, і практичну або теоретичну важливість його оціночної величини.


1
p=0.04p=0.000004

1

Дякую за коментарі та запропоновані читання. У мене було ще трохи часу, щоб задуматися над цією проблемою, і я вважаю, що мені вдалося виділити основні джерела плутанини.

  • Спочатку я думав, що існує дихотомія між переглядом значення р як міри подив, а не заявляючи, що це не абсолютна міра. Тепер я розумію, що ці твердження не обов'язково суперечать одне одному. Перший дозволяє нам бути більш-менш впевненими у крайності (навіть неправдоподібності?) Спостережуваного ефекту порівняно з іншими гіпотетичними результатами того ж експерименту. Тоді як останній говорить лише про те, що те, що можна вважати переконливим значенням p в одному експерименті, в іншому експерименті може взагалі не вражати, наприклад, якщо розміри вибірки відрізняються.

  • Те, що в деяких галузях науки використовують різну базову лінію сильних p-значень, може бути або відображенням різниці загальних розмірів вибірки (астрономія, клінічні, психологічні експерименти) та / або спробою передати розмір ефекту в p- значення. Але останнє - неправильне співвідношення двох.

  • Значущість - це питання «так / ні» на основі альфа, обраної до експерименту. Отже, значення p не може бути більш значущим, ніж інше, оскільки вони або менші, або більші за обраний рівень значущості. З іншого боку, менша р-величина буде більш переконливою, ніж більша (для аналогічного розміру вибірки / ідентичного експерименту, про який говорилося в моєму першому пункті).

  • Інтервали довіри по суті передають розмір ефекту, що робить їх приємним вибором для захисту від згаданих вище проблем.


0

Значення р не може бути мірою здивування, оскільки це лише міра ймовірності, коли нуль відповідає дійсності. Якщо нуль істинний, то кожне можливе значення p однаково вірогідне. Не можна дивуватися жодному p-значенню, перш ніж вирішити відхилити нуль. Як тільки хто вирішить, що виникає ефект, значення р-значення зникає. Один лише повідомляє про це як ланку у відносно слабкій індуктивній ланцюзі, щоб виправдати відмову від нуля чи ні. Але якщо він був відхилений, він насправді більше не має жодного значення.


+1 за те, що "коли нуль відповідає дійсності, то кожне p-значення є однаково вірогідним", однак, я думаю, це справедливо лише для безперервних випадкових змінних?

Зауважимо, що я сказав, кожне "можливе" значення p однаково вірогідне. Тож це справедливо для дискретних або безперервних змінних. З дискретними змінними кількість можливих значень менша.
Джон

H0

Я вважаю, що провідна відповідь демонструє, що це не питання. Причина того, що розподіл виглядає неоднорідною, полягає в тому, що можливі р-значення розташовані нерівномірно. Гленн навіть називає це квасонічним. Я припускаю, що можливо, що при деяких дуже рідких тестах біноміальних даних з малим Ns, можливо, ймовірність конкретних p-значень неоднакова, але якщо врахувати ймовірність p-значень у заданому діапазоні, воно буде ближче до рівномірного.
Джон

1
H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.