Що зумовлює розрив у розподілі опублікованих p-значень при p <0,05?


27

У недавній роботі Masicampo і Lalande (ML) зібрали велику кількість p-значень, опублікованих у багатьох різних дослідженнях. Вони спостерігали цікавий стрибок гістограми p-значень прямо на канонічному критичному рівні 5%.

У цьому блозі проф. Вассермана є приємна дискусія щодо цього явища М.Л .:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

У його блозі ви знайдете гістограму:

Гістограма опублікованих p-значень

Оскільки рівень 5% - це конвенція, а не закон природи, що зумовлює таку поведінку емпіричного розподілу опублікованих p-значень?

Зміщення вибору, систематичне «коригування» p-значень трохи вище канонічного критичного рівня, чи що?


11
Існують щонайменше 2 різновиди пояснення: 1) "проблема ящика файлів" - опубліковані дослідження з p <.05, ті, що вище, не роблять, тому це дійсно суміш двох розподілів. 2) люди маніпулюють речами, можливо, підсвідомо , щоб отримати р <.05
Пітер Флом - Відновіть Моніку

3
Привіт @Zen. Так, саме такі речі. Існує сильна тенденція робити подібні речі. Якщо наша теорія підтвердиться, ми рідше шукаємо статистичні проблеми, ніж якщо це не так. Це, здається, є частиною нашої природи, але це щось, що потрібно намагатися захистити.
Пітер Флом - Відновіть Моніку

@Zen Вас може зацікавити цей пост у блозі Ендрю Гелмана, в якому згадуються деякі дослідження, які виявляють відсутність упередженості публікацій у дослідженні зміщення публікацій ...! andrewgelman.com/2012/04/…
smillig

1
Що було б цікаво - це зворотне обчислення р-значень з робіт у журналах, які прямо відкидають документи, засновані на значеннях, як, наприклад, епідеміологія (і в деяких сенсах, як і раніше). Цікаво, чи зміниться він, якщо журнал видав і видав, що це не хвилює, чи рецензенти / автори все ще роблять ментальні спеціальні тести на основі інтервалів довіри.
Фоміт

4
Як пояснено в блозі Ларрі, це збірка опублікованих p-значень, а не випадкова вибірка p-значень, відібраних зі Світу p-значень. Таким чином, немає жодної причини, щоб рівномірна розподіл не відображався на малюнку, навіть як частина суміші за зразком у посту Ларрі.
Сіань

Відповіді:


14

(1) Як вже згадував @PeterFlom, одне пояснення може бути пов'язане з проблемою "файлового ящика". (2) @Zen також згадав про випадок, коли автор (и) маніпулює (-ла) даними або моделями (наприклад, днопоглиблення ). (3) Однак ми не перевіряємо гіпотези на чисто випадковій основі. Тобто гіпотези вибираються не випадково, але ми маємо (більш-менш сильне) теоретичне припущення.

Вас також можуть зацікавити праці Гербера та Малхотри, які нещодавно проводили дослідження в цій галузі, застосовуючи так званий "тест на супорт":

Вас також може зацікавити цей спеціальний випуск під редакцією Андреаса Дікмана:


10

Один з аргументів, яких поки що немає, - це гнучкість аналізу даних, відома як ступінь свободи дослідників. У кожному аналізі має бути прийнято багато рішень, де встановити критерій випередження, як перетворити дані та ...

Про це нещодавно було сказано у впливовій статті Сіммонса, Нельсона та Сімонсона:

Сіммонс, Дж. П., Нельсон, LD та Сімонсон, США. (2011). Хибнопозитивна психологія: нерозкрита гнучкість у зборі та аналізі даних дозволяє представити будь-що як важливе. Психологічна наука , 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

(Зауважте, що це той самий Сімонсон, який відповідає за деякі нещодавно виявлені випадки шахрайства даних у соціальній психології, наприклад, інтерв'ю , допис у блозі )


8

Я думаю, що це поєднання всього, що вже було сказано. Це дуже цікаві дані, і я не думав дивитись на подібні розподіли p-значення. Якщо нульова гіпотеза вірна, значення р буде однорідним. Але звичайно з опублікованими результатами ми не побачили б однаковості з багатьох причин.

  1. Ми робимо дослідження, оскільки очікуємо, що нульова гіпотеза буде хибною. Тож нам слід частіше отримувати вагомі результати.

  2. Якби нульова гіпотеза була помилковою лише половину часу, ми не отримали б рівномірного розподілу p-значень.

  3. Проблема з ящиком файлів: Як згадувалося, ми боїмося подати папір, коли значення p не є значним, наприклад нижче 0,05

  4. Видавці відхилять документ через незначні результати, навіть якщо ми вирішили надіслати його.

  5. Коли результати будуть на кордоні, ми зробимо щось (можливо, не зі шкідливим наміром), щоб отримати важливе значення. (a) округніть до 0,05, коли значення p дорівнює 0,053, (b) знайдіть спостереження, які, на нашу думку, можуть бути пережилими, і після їх переміщення значення р падає нижче 0,05.

Я сподіваюся, що це підсумовує все, що було сказано досить зрозуміло.

Мені здається цікавим те, що ми бачимо значення p між 0,05 і 0,1. Якщо правила публікації повинні відхиляти що-небудь із значеннями p вище 0,05, правий хвіст відрізається на рівні 0,05. Це насправді було 0.10? якщо так, то, можливо, деякі автори та деякі журнали приймуть рівень значущості 0,10, але нічого вищого.

Оскільки у багатьох роботах є декілька p-значень (скоригованих на multiplcity чи ні), і папір прийнята, оскільки ключові тести були значущими, ми можемо побачити незначні p-значення, включені до списку. Це викликає питання "Чи були всі зведені p-значення в роботі включені до гістограми?"

Одним з додаткових спостережень є те, що спостерігається значна тенденція до зростання частоти опублікованих робіт, оскільки значення p стає значно нижче 0,05. Можливо, це є вказівкою авторів, що інтерпретують p-значення мислення p <0,0001, набагато гіднішого публікації. Я думаю, автор ігнорує або не усвідомлює, що значення p залежить стільки від розміру вибірки, скільки від величини ефекту.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.