Чому нижчі р-значення не є більшими доказами проти нуля? Аргументи з Йохансона 2011 року


31

Йоханссон (2011) у " Вітаю неможливе: значення p, докази та ймовірність " (тут також посилання на журнал ) стверджує, що більш низькі часто розглядаються як сильніші докази проти нуля. Йоханссон передбачає, що люди вважають, що докази проти нуля є більш сильними, якби їх статистичний тест видавав -значення , ніж якщо їх статистичний тест отримав -значення . Йохансон перераховує чотири причини, чому -значення не може бути використане як доказ проти нуля:pp0,01p0,45p

  1. p розподілено рівномірно під нульовою гіпотезою і тому ніколи не може вказувати на докази нуля.
  2. p обумовлений виключно нульовою гіпотезою і тому не підходить для кількісної оцінки доказів, оскільки докази завжди відносні в сенсі того, що вони є доказом для або проти гіпотези щодо іншої гіпотези.
  3. p позначає вірогідність отримання доказів (з урахуванням нуля), а не міцність доказів.
  4. p залежить від незабезпечених даних та суб'єктивних намірів, а тому, враховуючи доказове тлумачення, означає, що доказова сила спостережуваних даних залежить від того, чого не відбулося, та суб'єктивних намірів.

На жаль, я не можу зрозуміти інтуїтивно зрозуміле зі статті Йохансона. Для мене -значення вказує на те, що менша ймовірність, що нуль справжня, ніж -значення . Чому нижчі -значення не є більш сильними доказами проти нуля? p0,01p0,45p


Привіт, @luciano! Я бачу, що ви не прийняли жодної відповіді в цій темі. Яку відповідь ви шукаєте? Це ваше питання насамперед стосовно аргументів Йогансона, або взагалі щодо нижчих значень р?
амеба каже, що поверніть Моніку

Це все про фреймворкські риси Фішера проти Неймана-Пірсона. Детальніше дивіться у цій відповіді від @gung .
Firebug

Відповіді:


21

Моя особиста оцінка його аргументів:

  1. Тут він розповідає про використання як доказів для Null, тоді як його теза полягає в тому, що p не може бути використаний як доказ проти Null. Отже, я вважаю, що цей аргумент багато в чому не має значення.pp
  2. Я думаю, що це непорозуміння. Фіширське тестування рішуче випливає з ідеї критичного раціоналізму Поппера, яка стверджує, що ви не можете підтримувати теорію, а лише критикувати її. Тож у цьому сенсі існує лише одна гіпотеза (Null), і ви просто перевіряєте, чи відповідають ваші дані.p
  3. Я тут не згоден. Це залежить від статистики тесту, але зазвичай є перетворенням розміру ефекту, що говорить проти Null. Отже, чим більший ефект, тим менше значення р --- всі інші речі рівні. Звичайно, для різних наборів даних або гіпотез це більше не діє. p
  4. Я не впевнений , що я повністю розумію це твердження, але від того, що я можу зібрати це менше , проблема як людей , що використовують його неправильно. p повинен був мати довгострокову інтерпретацію частоти, і це особливість, а не помилка. Але ви не можете звинувачувати p у тому, що люди приймають єдине значення p як доказ своєї гіпотези, або люди, які публікують лише p < .05 . ppppp<.05

Його пропозиція використовувати коефіцієнт ймовірності в якості міри доказів, на мою думку, є гарною (але тут ідея фактора Байєса є загальнішою), але в контексті, в якому він приносить це, дещо властиво: Спочатку він залишає підстави рибного тестування, коли немає альтернативної гіпотези для обчислення коефіцієнта ймовірності. Але в якості доказу проти Null є Fisherian. Звідси він бентежить Фішера та Неймана-Пірсона. По-друге, більшість тестових статистичних даних, які ми використовуємо, є (функціями) коефіцієнта ймовірності, і в цьому випадку p є перетворенням коефіцієнта ймовірності. Як стверджує Косма Шалізі :pp

серед усіх випробувань заданого розміру , те, що має найменшу ймовірність пропуску або найвищу потужність, має форму "сказати" сигнал ", якщо q ( x ) / p ( x ) > t ( s ) , інакше сказати" шум " , "і що поріг t змінюється обернено з s . Кількість q ( x ) / p ( x ) - коефіцієнт ймовірності; лемма Неймана-Пірсона говорить, що для максимізації потужності нам слід сказати "сигнал", якщо це достатньо ймовірніше, ніж шум.сq(х)/p(х)>т(с)тсq(х)/p(х)

Тут - щільність під станом "сигнал", а p ( x ) - щільність при стані "шум". Тут мірою для "досить вірогідного" буде P ( q ( X ) / p ( x ) > t o b sH 0 ), який є p . Зауважимо, що при правильному тестуванні Неймана-Пірсона t o b s заміщений фіксованим t ( s ) таким, що Pq(х)p(х)П(q(Х)/p(х)>тобсН0)pтобст(с) . П(q(Х)/p(х)>т(с)Н0)=α


6
+1 для точки 3. Кокс описує значення р як калібрування коефіцієнта ймовірності (або іншої статистики тесту), і це точка зору, яку часто забувають.
Scortchi

(+1) Приємна відповідь, @Momo. Мені цікаво, чи можна було б це покращити, додавши щось на кшталт "Але вони є!" великим шрифтом як заголовок вашої відповіді, оскільки це, здається, є вашою відповіддю на головне запитання ОП "Чому нижчі p-значення не мають більше свідчень проти нуля?". Ви розблоковуєте всі наведені аргументи, але не даєте прямо відповіді на заголовок.
амеба каже: Відновити Моніку

1
Я б трохи вагався з цим, це все дуже тонко і дуже залежить від припущень, контекстів тощо. Наприклад, ви можете відвернути заперечення того, що ймовірнісні твердження можуть бути використані як "докази", і таким чином твердження є правильним. З точки зору риболовлі це не так. Крім того, я б не сказав, що я розвінчую (усі) аргументи, я думаю, що я лише надаю іншу точку зору і вказую на деякі логічні недоліки в аргументі. Автор добре аргументує свою точку зору і намагається знайти рішення відповідного підходу, який сам по собі може розглядатися як однаково проблематичний.
Момо

9

Причина того, що такі аргументи, як Йоханссон, переробляються настільки часто, схоже, пов'язана з тим, що P-значення є індексами доказів проти нуля, але не є мірою доказів. Докази мають більше вимірів, ніж будь-яке одне число може виміряти, і тому завжди є аспекти взаємозв'язку між значеннями Р і доказами, які люди можуть знайти важкими.

Я переглянув багато аргументів, які використовував Йоханссон у роботі, в якій відображається взаємозв'язок між значеннями Р та ймовірними функціями, і, таким чином, підтверджую: http://arxiv.org/abs/1311.0081 На жаль, папір зараз тричі відхилено, хоча його аргументи та докази для них не спростовані. (Схоже, суддям, які дотримуються такої думки, як Йохансон, неприємно, як неприємно).


+1 @Michael Lew, а як же змінити назву? До P (ee) чи ні до P (ee) ... не звучить як дилема. Ми всі знаємо, що робити в цій ситуації. = D Жартуючи вбік, які причини були відхилені вашим документом?
Старий чоловік у морі.

4

Додавання до приємної відповіді @ Momo:

1


2
Варто зазначити, що на самі докази не впливає багатослідність тестування, навіть якщо ваша відповідь на докази може бути змінена. Докази в даних є свідченнями даних, і на них не впливають жодні розрахунки, які ви можете виконати на своєму комп’ютері. Типова "корекція" p-значень для кратності тестування пов'язана із збереженням помилкових позитивних помилок, а не корекцією взаємозв'язку між р-значенням та експериментальними доказами.
Майкл Лью

1

Чи Йоханссон говорить про p-значеннях з двох різних експериментів? Якщо так, порівняння p-значень може бути подібним до порівняння яблук із котлетами баранячого. Якщо експеримент "А" передбачає величезну кількість зразків, навіть невелика непослідова різниця може бути статистично значущою. Якщо експеримент "В" включає лише кілька зразків, важлива різниця може бути статистично незначною. Ще гірше (тому я сказав, що баранина баранина, а не апельсини), терези можуть бути абсолютно незрівнянними (фунт / кв.дюйм в одній і кВт / год в іншій).


3
Моє враження, що Йохансон не говорить про порівняння р-значень у різних експериментах. У світлі цього коментаря & @ Glen_b, ви не хочете роз'яснити свій пост, Еміле? Добре піднімати пов’язану точку ("Я думаю, що J неправий у контексті A, але це мало б заслугу в контексті B"), але це повинно бути зрозуміло, що це ви робите. Якщо будуть задавати питання або коментарі, будь ласка , видаліть це повідомлення і зробити його коментар.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.