ПІДСУМОК: якщо "p-хакерство" слід розуміти загалом на шляхових шляхах а-ля Гельмана, відповідь на те, наскільки він поширений, полягає в тому, що він майже універсальний.
Ендрю Гельман любить писати на цю тему і останнім часом широко публікує про це у своєму блозі. Я не завжди згоден з ним, але мені подобається його погляд на хакерство. Ось уривок із статті "Вступ до його саду" Розгалуження " (Gelman & Loken 2013; версія з'явилася в American Scientist 2014; див. Також короткий коментар Гельмана щодо заяви ASA), акцент мій:p
Цю проблему іноді називають «p-hacking» або «ступінь свободи дослідника» (Simmons, Nelson, Simonsohn, 2011). В останній статті ми говорили про "рибальські експедиції [...]". Але ми починаємо відчувати, що термін «риболовля» був невдалим, оскільки він викликає образ дослідника, який намагається порівняти після порівняння, кидаючи лінію в озеро кілька разів, поки риба не зачепилася. У нас немає підстав думати, що дослідники регулярно роблять це. Ми думаємо, що реальна історія полягає в тому, що дослідники можуть зробити розумний аналіз з огляду на їхні припущення та їх дані, але якби дані виявились інакше, вони могли б зробити інші аналізи, які були настільки ж розумними в тих умовах.
Ми шкодуємо про поширення термінів "риболовля" та "p-хакерство" (і навіть "ступінь свободи дослідника") з двох причин: по-перше, тому що, коли такі терміни використовуються для опису дослідження, виникає оманливий сенс, що дослідники свідомо випробовували багато різних аналізів на одному наборі даних; по-друге, тому що це може привести дослідників, які знають, що вони не пробували багато різних аналізів, помилково вважаючи, що вони не так сильно піддаються проблемам ступеня свободи дослідника. [...]
Нашим ключовим моментом тут є те, що можна провести кілька можливих порівнянь у сенсі аналізу даних, деталі яких сильно залежать від даних, без того, щоб дослідник здійснював усвідомлену процедуру лову риби або не перевіряв декілька p-значень .
Отже: Гельман не любить термін p-хакерство, оскільки це означає, що дослідження активно обманювали. Тоді як проблеми можуть виникати просто тому, що дослідники вибирають тест, який слід виконати / повідомити після перегляду даних, тобто, зробивши деякий дослідницький аналіз.
Маючи певний досвід роботи з біології, я сміливо можу сказати, що всі це роблять. Кожен (включаючи мене) збирає деякі дані лише з невиразними апріорними гіпотезами, проводить обширний дослідницький аналіз, проводить різні тести на значущість, збирає ще деякі дані, запускає та повторно проводить тести і, нарешті, повідомляє про деякі в остаточному рукописі. Все це відбувається без активного обману, роблячи тупі xkcd-желе-боби в стилі вишні або збираючи щось свідомо.p
Отже, якщо "п-хакерство" слід розуміти загалом на шляхових шляхах а-ля Гельмана, відповідь на те, наскільки він поширений, полягає в тому, що він майже універсальний.
Єдині винятки, які приходять на думку, - це повністю попередньо зареєстровані реплікаційні дослідження з психології або повністю попередньо зареєстровані медичні випробування.
Конкретні докази
Кумедно, що деякі люди опитували дослідників, виявляючи, що багато хто зізнається, що робили певний хакер ( John et al. 2012, Оцінка поширеності сумнівних дослідницьких практик із стимулами для правди ):
Крім того, всі чули про так звану "кризу реплікації" в психології: більше половини останніх досліджень, опублікованих у кращих журналах з психології, не повторюються ( Nosek et al. 2015, Оцінка відтворюваності психологічної науки ). (Це дослідження нещодавно знову було в усіх блогах, тому що випуск Science за березень 2016 року опублікував коментар, який намагався спростувати Носека та ін., А також відповідь Носека та ін. Дискусія продовжувалася в іншому місці, див. Допис Ендрю Гелмана та Повідомлення RetractionWatch, на яке він посилається. Ввічливо кажучи, критика є непереконливою.)
Оновлення листопада 2018 року: Каплан та Ірвін, 2017, ймовірність виникнення нульових наслідків великих клінічних випробувань NHLBI з часом збільшується, показує, що частка клінічних випробувань, що повідомляють про недійсні результати, зросла з 43% до 92% після того, як попередня реєстрація стала необхідною:
P -значні розподіли в літературі
Голова та ін. 2015 рік
Я не чув про Head та ін. вчитися раніше, але зараз витратили деякий час на перегляд навколишньої літератури. Я також коротко ознайомився з їхніми необробленими даними .
Голова та ін. завантажив усі папери з відкритим доступом з PubMed і вилучив усі р-значення, повідомлені в тексті, отримуючи 2,7 млн p-значень. З них 1,1 млн. Було зареєстровано як а не як . З них Head та ін. випадковим чином взяли одне p-значення на папері, але це, здається, не змінило розподіл, тому ось як виглядає розподіл усіх 1,1 млн. значень (між і ):p=ap<a00.06
Я використав ширину біна, і можна чітко побачити безліч передбачуваних округлень у повідомлених -значеннях. Тепер, Head та ін. зробіть наступне: вони порівнюють кількість значень в інтервалі та в інтервалі ; колишнє число виявляється (значно) більшим, і вони сприймають це як доказ -злому. Якщо хто косить, це можна побачити на моїй фігурі.0.0001pp(0.045,0.5)(0.04,0.045)p
Я вважаю це надзвичайно непереконливим з однієї простої причини. Хто хоче повідомити про свої висновки з ? Насправді, багато людей, здається, роблять саме це, але все ж видається природним спробувати уникнути цього незадовільного значення межі і, скоріше, повідомити про іншу значну цифру, наприклад, (якщо, звичайно, це ). Таким чином, деяке перевищення значень, близьких, але не рівних можна пояснити перевагою округлення дослідника.p=0.05p=0.048p=0.052p0.05
І крім цього, ефект крихітний .
(Єдиний сильний ефект, який я бачу на цій фігурі, - це виражене падіння щільності значення відразу після . Це явно пов'язано з ухилом публікації.)p0.05
Якщо я щось не пропустив, Хед та ін. навіть не обговорюйте це потенційне альтернативне пояснення. Вони також не представляють ніякої гістограми значень.p
Існує маса документів, що критикують Head та ін. У цьому неопублікованому рукописі Хартгеринк стверджує, що Хед та ін. повинні були включити в їх порівняння і (і якби вони мали, вони не знайшли б свого ефекту). Я не впевнений у цьому; це звучить не дуже переконливо. Було б набагато краще, якби ми могли якось перевірити розподіл "сирих" значень без будь-якого округлення.p=0.04p=0.05p
Розподіл -значень без округленняp
У цьому документі PeerJ 2016 (препринт розміщений у 2015 році) того ж Hartgerink та співавт. витягуйте p-значення з безлічі праць у найвищих журналах з психології і робите саме це: вони перераховують точні -значення з повідомлених статистичних значень -, -, - тощо; цей розподіл не містить жодних артефактів округлення і не демонструє жодного збільшення до 0,05 (рис. 4):ptFχ2
Дуже схожий підхід застосовує Krawczyk 2015 у PLoS One, який витягує 135k -значень з найкращих журналів експериментальної психології. Ось як виглядає розподіл для повідомленого (лівого) та перерахованого (правого) -значень:pp
Різниця вражає. На лівій гістограмі показані деякі дивні речі, що відбуваються біля , а в правій - немає. Це означає, що цей дивний матеріал пояснюється перевагою людей щодо звітних значень приблизно а не через злому.p=0.05p≈0.05p
Массікампо і Лаланд
Схоже, першими, хто помітив передбачуване перевищення значень трохи нижче 0,05, були Masicampo & Lalande 2012 , переглядаючи три найкращі журнали з психології:p
Це виглядає вражаюче, але Lakens 2015 ( препринт ) у опублікованому коментарі стверджує, що це здається вражаючим лише завдяки оманливій експоненціальній придатності. Див. Також Lakens 2015, Про завдання складання висновків із p-значень трохи нижче 0,05 та посилань на них.
Економіка
zp
ppp<0.05
Помилково заспокоюєш?
ppp0.050.05
Урі Сімонсон стверджує, що це "помилково заспокійливо" . Ну, насправді він цитує ці документи не критично, але потім зазначає, що "більшість p-значень набагато менші", ніж 0,05. Потім він каже: "Це заспокоює, але помилково заспокоює". І ось чому:
Якщо ми хочемо знати, чи дослідники п-хакують їх результати, нам потрібно вивчити значення p, пов'язані з їх результатами, ті, які вони, можливо, хочуть в першу чергу зламати. Зразки, щоб бути неупередженими, повинні включати лише спостереження з боку населення, яке цікавить.
Більшість p-значень, повідомлених у більшості праць, не мають значення для стратегічної поведінки, що цікавить. Коваріати, маніпуляційні перевірки, основні ефекти в дослідженнях тестування взаємодій тощо. Включаючи їх, ми недооцінюємо p-хакерство і переоцінюємо доказову цінність даних. Аналіз усіх p-значень задає інше питання, менш розумне. Замість "Чи дослідники пхають те, що вони вивчають?", Ми запитуємо "Чи дослідники пхають усе?"
pppp
p
Висновки
pp p0.05