Висока дисперсія розподілу p-значень (аргумент у Taleb 2016)


17

Я намагаюся зрозуміти велику заяву про картину, висловлену в Taleb, 2016, «Мета-розподіл стандартних P-значень» .

У ньому Taleb висуває такий аргумент щодо ненадійності p-значення (наскільки я його розумію):

Процедура оцінки, що працює на точках даних, що надходять із деякого значення розподілу X виводить значення ap. Якщо ми виведемо ще n точок з цього розподілу і виведемо інше значення p, ми можемо середні ці p-значення, отримуючи в межах так званого "справжнього p-значення".nX

Показано, що це "справжнє p-значення" має надзвичайно велику дисперсію, так що процедура розподілу + зі "справжнім значенням p" становитиме 60% часу, повідомляє про p-значення <.05..12

Питання : як це можна узгодити з традиційним аргументом на користь -значення. Як я розумію, значення p повинно підказувати, який відсоток часу ваша процедура дасть вам правильний інтервал (або будь-який інший). Однак цей документ, схоже, стверджує, що ця інтерпретація вводить в оману, оскільки значення p не буде однаковим, якщо запустити процедуру заново.p

Я пропускаю точку?


1
Чи можете ви пояснити, що це за «традиційний аргумент»? Я не впевнений, я зрозумів, який аргумент ви розглядаєте.
Glen_b -Встановити Моніку

Питання цікаве і пов’язане з літературою, для якої у CV навіть є тег, поєднуючи значення-p, які ви можете додати, якщо вважаєте, що це доречно.
mdewey

1
Я вважаю, що питання про відтворюваність p-значень може бути дуже тісно пов'язане з цим. Можливо, аналіз там подібний (або навіть такий самий), як той, що згадується тут.
whuber

Відповіді:


13

Значення р - випадкова величина.

Під (принаймні, для статистики, що постійно розподіляється) р-значення повинно мати рівномірний розподілН0

Для послідовного тестування, під значення р повинно перевищувати 0 в межах, оскільки розміри вибірки збільшуються до нескінченності. Аналогічно, у міру збільшення розмірів ефектів розподіл p-значень також має тенденцію зміщуватися в бік 0, але він завжди буде "розповсюджений".Н1

Поняття "справжнього" р-значення для мене звучить як нісенітниця. Що б це означало, або під абоН0 ? Наприклад, ви можете сказати, що ви маєте на увазі "середнє значення розподілу p-значень при заданому розмірі ефекту та розмірі вибірки", але тоді в якому сенсі ви маєте конвергенцію, де спред повинен скорочуватися? Це не так, як ви можете збільшити розмір зразка, поки ви тримаєте його постійним.Н1

Ось приклад із одним зразком t-тестів та малим розміром ефекту при . Значення p майже однорідні, коли розмір вибірки невеликий, і розподіл повільно концентрується у напрямку 0, коли розмір вибірки збільшується.Н1

введіть тут опис зображення

Ось саме так слід поводитись - для помилкової нулі, коли розмір вибірки збільшується, значення p повинні ставати більш концентрованими при низьких значеннях, але немає нічого, що дозволяє припустити, що розподіл значень, який він приймає, коли ви зробіть помилку типу II - коли значення р вище, ніж ваш рівень значущості, - якимось чином має бути "близьким" до рівня значущості.

α=0,05

Часто корисно врахувати, що відбувається як з розподілом будь-якої тестової статистики, яку ви використовуєте в альтернативному варіанті, так і те, що застосувати cdf під нуль як перетворення до того, що буде робити з дистрибутивом (що дасть розподіл p-значення під конкретна альтернатива). Коли ви думаєте в цих термінах, часто не важко зрозуміти, чому така поведінка така.

Як я бачу, питання не стільки в тому, що взагалі є якась притаманна проблема з р-значеннями або тестуванням гіпотез, це скоріше випадок того, чи є тест гіпотези хорошим інструментом для вашої конкретної проблеми чи чи щось інше було б більш підходящим в будь-якому конкретному випадку - це не ситуація для широкої полеміки, але уважне розгляд виду питань, які стосуються тестів гіпотези та конкретних потреб вашої обставини. На жаль, ретельний розгляд цих питань проводиться рідко - занадто часто люди бачать питання форми "який тест я використовую для цих даних?" не зважаючи на те, що може бути питанням, що цікавить, не кажучи вже про те, чи є якийсь тест гіпотези хорошим способом вирішити його.

Одна з труднощів полягає в тому, що тести гіпотез одночасно широко розуміються та широко використовуються; люди дуже часто думають, що вони розповідають нам речі, яких вони не роблять. Значення р - це, мабуть, є найбільш неправильно зрозумілою річчю про тести гіпотез.


pнм

ннн

1
Н1Н1

3
н

3
+1. Один з пов'язаних - і цікавих - аналіз, який мені спадає на думку, - це те, що Джефф Каммінг називає «Танком p-значень»: див. Youtube.com/watch?v=5OL1RqHrZQ8 («танець» відбувається приблизно через 9 хвилин) . Ця маленька презентація в основному підкреслює, наскільки змінні р-значення навіть для відносно великої потужності. Я не зовсім згоден з основним моментом Каммінга, що інтервали довіри набагато кращі, ніж р-значення (і я ненавиджу, що він називає це «новою статистикою»), але я думаю, що ця мінливість суми дивовижна для багатьох людей і "танець" - це милий спосіб його продемонструвати.
Амеба каже, що повернеться до Моніки

11

Відповідь Glen_b - це місце (+1; вважати, що моє додаткове). Документ, на який ви посилаєтесь Талебом, є вкрай схожим на серію статей з психологічної та статистичної літератури про те, яку інформацію ви можете отримати, аналізуючи розподіли p-значень (те, що автори називають p-кривою ; див. Їхній сайт із a купа ресурсів, включаючи додаток для аналізу кривих p тут ).

Автори пропонують два основних використання p-кривої:

  1. Ви можете оцінити доказову цінність літератури, проаналізувавши p-криву літератури . Це було їх перше рекламоване використання p-кривої. По суті, як описує Glen_b, коли ви маєте справу з ненульовими розмірами ефекту, ви повинні бачити p-криві, які позитивно перекошені нижче звичайного порогу p <0,05, оскільки менші p-значення повинні бути швидше, ніж p- значення ближче до p= .05, коли ефект (або група ефектів) "реальний". Таким чином, ви можете перевірити p-криву на наявність значущого позитивного перекосу як перевірку доказової цінності. І навпаки, розробники пропонують вам провести тест на негативне перекос (тобто, більш прикордонне значне p-значення, ніж менші) як спосіб перевірити, чи був заданий набір ефектів різним сумнівним аналітичним практикам.
  2. Ви можете обчислити безкоштовну метааналітичну оцінку розміру ефекту публікації, використовуючи p-криву з опублікованими p-значеннями . Це трохи складніше, щоб пояснити їх стисло, і замість цього, я рекомендую вам перевірити документи, орієнтовані на оцінку розміру ефекту (Simonsohn, Nelson, & Simmons, 2014a, 2014b) і прочитати самі методи. Але, по суті, автори припускають, що p-крива може бути використана для вирішення питання ефекту файлового ящика під час проведення мета-аналізу.

Отже, щодо вашого більш широкого питання:

як це можна узгодити з традиційним аргументом на користь p-значення?

Я б сказав, що такі методи, як Талеб (та інші), знайшли спосіб змінити p-значення, щоб ми могли отримати корисну інформацію про цілі літератури шляхом аналізу груп p-значень, тоді як одне p-значення самостійно може бути набагато обмеженіший у своїй корисності.

Список літератури

Simonsohn, U., Nelson, LD, & Simmons, JP (2014a). P-крива: ключ до ящика файлів. Журнал експериментальної психології: Загальне , 143 , 534–547.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014b). P-крива та розмір ефекту: виправлення зміщення публікацій, використовуючи лише значні результати. Перспективи психологічної науки , 9 , 666-681.

Simonsohn, U., Simmons, JP, & Nelson, LD (2015). Кращі P-криві: зробити аналіз P-кривої більш надійним до помилок, шахрайства та амбітного P-злому, відповідь Ульріха та Міллера (2015). Журнал експериментальної психології: Загальні , 144 , 1146-1152.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.