Скільки ми знаємо про p-хакерство «в дикій природі»?


94

Словосполучення р- хакінг (також: " дноуглублення даних" , "сунуння" або "риболовля") відноситься до різних видів статистичних зловживань, результати яких стають штучно статистично значущими. Існує багато способів досягти "більш значущого" результату, включаючи, але жодним чином не обмежуючись:

  • тільки аналіз «цікаве» підмножина даних , в яких був знайдений зразок;
  • невміння правильно налаштувати багаторазове тестування , особливо післяспеціальне тестування та невдача звітів про проведені тести, які були несуттєвими;
  • випробування різних тестів однієї гіпотези , наприклад, параметричний і непараметричний тест ( у цьому потоці є певне обговорення ), але лише звітування про найбільш суттєве;
  • експериментувати з включенням / виключенням точок даних , поки не буде отримано бажаний результат. Одна з можливостей з'являється, коли "засоби очищення даних", але також при застосуванні неоднозначного визначення (наприклад, в економетричному дослідженні "розвинених країн" різні визначення дають різні групи країн) або якісні критерії включення (наприклад, в метааналізі , це може бути тонко збалансованим аргументом, чи достатньо надійна для включення методологія дослідження);
  • попередній приклад стосується необов'язкової зупинки , тобто аналізу набору даних та прийняття рішення щодо того, збирати більше даних чи ні, залежно від даних, зібраних до цього часу ("це майже важливо, давайте вимірювати ще трьох учнів!"), не враховуючи цього. в аналізі;
  • експериментування під час адаптації до моделей , зокрема коваріатів для включення, але також щодо перетворень даних / функціональної форми.

Отже, ми знаємо, що р- хакінг можна зробити. Він часто перераховується як одна з "небезпек значення p " і згадується у звіті ASA про статистичну значимість, обговорюваному тут на перехресній валідації , тому ми також знаємо, що це погана річ. Хоча деякі сумнівні мотивації та (особливо у конкурсі на академічну публікацію) контрпродуктивні стимули очевидні, я підозрюю, що важко зрозуміти, чому це робиться, чи це навмисні недобросовісні дії чи просте незнання. Хто - то уявлення р -значення з покрокової регресії (бо вони знаходять поетапні процедури «виробляють хороші моделі», але не знає , що мається на увазі р-знаки недійсні) є в останньому таборі, але ефект все-таки p -захисний під останнім моїм пунктом кулі вище.

Безумовно, є докази того, що р- хакерство "там", наприклад Head et al (2015) шукає ознаки, що його впливають на наукову літературу, але який сучасний стан нашої доказової бази щодо цього? Я знаю, що підхід Хед та інших не був без суперечок, тому сучасний стан літератури чи загального мислення в академічній спільноті був би цікавим. Наприклад, чи є у нас ідеї про:

  • Наскільки воно поширене і наскільки ми можемо диференціювати його появу від упередженості публікації ? (Чи є ця відмінність навіть значущою?)
  • Чи ефект особливо гострий на кордоні ? Чи подібні ефекти спостерігаються, наприклад, при , чи ми бачимо цілі діапазони р- значень?p 0,01p0.05p0.01
  • Чи змінюються шаблони в p- хакінгу в різних академічних областях?
  • Чи є у нас ідея, який із механізмів р- хакінгу (деякі з них перераховані в точках кулі вище) є найбільш поширеними? Чи є деякі форми виявити важче виявити, ніж інші, оскільки вони "краще маскуються"?

Список літератури

Head, ML, Holman, L., Lanfear, R., Kahn, AT, & Jennions, MD (2015). Ступінь та наслідки p -хакінгу в науці . PLoS Biol , 13 (3), e1002106.


6
Ваше останнє запитання - хороша ідея для дослідження: дайте грубі дані дослідникам групі дослідників, які формують різні поля, обладнайте їх у SPSS (або що б вони не використовували), а потім запишіть, що вони роблять, конкуруючи один з одним за більш значні результати .
Тім

1
Можна зробити це без того, щоб суб'єкти знали, що це відбувається, використовуючи історію подання кагл. Вони не публікують, але всіляко намагаються потрапити на магічне число.
EngrStudent

1
Чи є у перекваліфікованих колекцій (наприклад, вікі спільноти) простих прикладів моделювання p-хакерів? Я уявляю іграшкові приклади, в яких змодельований дослідник реагує на "незначно значущі" результати, збираючи більше даних, експерименти зі специфікаціями регресії тощо.
Адріан

2
@ Adrian CV - це лише питання Q&A, він не містить жодних даних чи коду, не має прихованого сховища - все, що ви знайдете у відповідях, належить вам за ліцензією CC :) Це питання, схоже, задає питання про збір таких прикладів.
Тім

1
@ Звичайно, я не уявляв жодних прихованих репостів коду - просто фрагменти коду, що містяться у відповідях. Наприклад, хтось може запитати "що таке p-хакерство?", А хтось може включити у свою відповідь іграшкове моделювання R. Чи було б доречно відповісти на поточне запитання за допомогою прикладів коду? "Скільки ми знаємо" - питання дуже широке.
Адріан

Відповіді:


76

ПІДСУМОК: якщо "p-хакерство" слід розуміти загалом на шляхових шляхах а-ля Гельмана, відповідь на те, наскільки він поширений, полягає в тому, що він майже універсальний.


Ендрю Гельман любить писати на цю тему і останнім часом широко публікує про це у своєму блозі. Я не завжди згоден з ним, але мені подобається його погляд на хакерство. Ось уривок із статті "Вступ до його саду" Розгалуження " (Gelman & Loken 2013; версія з'явилася в American Scientist 2014; див. Також короткий коментар Гельмана щодо заяви ASA), акцент мій:p

Цю проблему іноді називають «p-hacking» або «ступінь свободи дослідника» (Simmons, Nelson, Simonsohn, 2011). В останній статті ми говорили про "рибальські експедиції [...]". Але ми починаємо відчувати, що термін «риболовля» був невдалим, оскільки він викликає образ дослідника, який намагається порівняти після порівняння, кидаючи лінію в озеро кілька разів, поки риба не зачепилася. У нас немає підстав думати, що дослідники регулярно роблять це. Ми думаємо, що реальна історія полягає в тому, що дослідники можуть зробити розумний аналіз з огляду на їхні припущення та їх дані, але якби дані виявились інакше, вони могли б зробити інші аналізи, які були настільки ж розумними в тих умовах.

Ми шкодуємо про поширення термінів "риболовля" та "p-хакерство" (і навіть "ступінь свободи дослідника") з двох причин: по-перше, тому що, коли такі терміни використовуються для опису дослідження, виникає оманливий сенс, що дослідники свідомо випробовували багато різних аналізів на одному наборі даних; по-друге, тому що це може привести дослідників, які знають, що вони не пробували багато різних аналізів, помилково вважаючи, що вони не так сильно піддаються проблемам ступеня свободи дослідника. [...] Нашим ключовим моментом тут є те, що можна провести кілька можливих порівнянь у сенсі аналізу даних, деталі яких сильно залежать від даних, без того, щоб дослідник здійснював усвідомлену процедуру лову риби або не перевіряв декілька p-значень .

Отже: Гельман не любить термін p-хакерство, оскільки це означає, що дослідження активно обманювали. Тоді як проблеми можуть виникати просто тому, що дослідники вибирають тест, який слід виконати / повідомити після перегляду даних, тобто, зробивши деякий дослідницький аналіз.

Маючи певний досвід роботи з біології, я сміливо можу сказати, що всі це роблять. Кожен (включаючи мене) збирає деякі дані лише з невиразними апріорними гіпотезами, проводить обширний дослідницький аналіз, проводить різні тести на значущість, збирає ще деякі дані, запускає та повторно проводить тести і, нарешті, повідомляє про деякі в остаточному рукописі. Все це відбувається без активного обману, роблячи тупі xkcd-желе-боби в стилі вишні або збираючи щось свідомо.p

Отже, якщо "п-хакерство" слід розуміти загалом на шляхових шляхах а-ля Гельмана, відповідь на те, наскільки він поширений, полягає в тому, що він майже універсальний.

Єдині винятки, які приходять на думку, - це повністю попередньо зареєстровані реплікаційні дослідження з психології або повністю попередньо зареєстровані медичні випробування.

Конкретні докази

Кумедно, що деякі люди опитували дослідників, виявляючи, що багато хто зізнається, що робили певний хакер ( John et al. 2012, Оцінка поширеності сумнівних дослідницьких практик із стимулами для правди ):

Джон та ін

Крім того, всі чули про так звану "кризу реплікації" в психології: більше половини останніх досліджень, опублікованих у кращих журналах з психології, не повторюються ( Nosek et al. 2015, Оцінка відтворюваності психологічної науки ). (Це дослідження нещодавно знову було в усіх блогах, тому що випуск Science за березень 2016 року опублікував коментар, який намагався спростувати Носека та ін., А також відповідь Носека та ін. Дискусія продовжувалася в іншому місці, див. Допис Ендрю Гелмана та Повідомлення RetractionWatch, на яке він посилається. Ввічливо кажучи, критика є непереконливою.)

Оновлення листопада 2018 року: Каплан та Ірвін, 2017, ймовірність виникнення нульових наслідків великих клінічних випробувань NHLBI з часом збільшується, показує, що частка клінічних випробувань, що повідомляють про недійсні результати, зросла з 43% до 92% після того, як попередня реєстрація стала необхідною:

введіть тут опис зображення


P -значні розподіли в літературі

Голова та ін. 2015 рік

Я не чув про Head та ін. вчитися раніше, але зараз витратили деякий час на перегляд навколишньої літератури. Я також коротко ознайомився з їхніми необробленими даними .

Голова та ін. завантажив усі папери з відкритим доступом з PubMed і вилучив усі р-значення, повідомлені в тексті, отримуючи 2,7 млн ​​p-значень. З них 1,1 млн. Було зареєстровано як а не як . З них Head та ін. випадковим чином взяли одне p-значення на папері, але це, здається, не змінило розподіл, тому ось як виглядає розподіл усіх 1,1 млн. значень (між і ):p=ap<a00.06

Поширення р-значень у літературі

Я використав ширину біна, і можна чітко побачити безліч передбачуваних округлень у повідомлених -значеннях. Тепер, Head та ін. зробіть наступне: вони порівнюють кількість значень в інтервалі та в інтервалі ; колишнє число виявляється (значно) більшим, і вони сприймають це як доказ -злому. Якщо хто косить, це можна побачити на моїй фігурі.0.0001pp(0.045,0.5)(0.04,0.045)p

Я вважаю це надзвичайно непереконливим з однієї простої причини. Хто хоче повідомити про свої висновки з ? Насправді, багато людей, здається, роблять саме це, але все ж видається природним спробувати уникнути цього незадовільного значення межі і, скоріше, повідомити про іншу значну цифру, наприклад, (якщо, звичайно, це ). Таким чином, деяке перевищення значень, близьких, але не рівних можна пояснити перевагою округлення дослідника.p=0.05p=0.048p=0.052p0.05

І крім цього, ефект крихітний .

(Єдиний сильний ефект, який я бачу на цій фігурі, - це виражене падіння щільності значення відразу після . Це явно пов'язано з ухилом публікації.)p0.05

Якщо я щось не пропустив, Хед та ін. навіть не обговорюйте це потенційне альтернативне пояснення. Вони також не представляють ніякої гістограми значень.p

Існує маса документів, що критикують Head та ін. У цьому неопублікованому рукописі Хартгеринк стверджує, що Хед та ін. повинні були включити в їх порівняння і (і якби вони мали, вони не знайшли б свого ефекту). Я не впевнений у цьому; це звучить не дуже переконливо. Було б набагато краще, якби ми могли якось перевірити розподіл "сирих" значень без будь-якого округлення.p=0.04p=0.05p

Розподіл -значень без округленняp

У цьому документі PeerJ 2016 (препринт розміщений у 2015 році) того ж Hartgerink та співавт. витягуйте p-значення з безлічі праць у найвищих журналах з психології і робите саме це: вони перераховують точні -значення з повідомлених статистичних значень -, -, - тощо; цей розподіл не містить жодних артефактів округлення і не демонструє жодного збільшення до 0,05 (рис. 4):ptFχ2

Папір Hartgerink PeerJ

Дуже схожий підхід застосовує Krawczyk 2015 у PLoS One, який витягує 135k -значень з найкращих журналів експериментальної психології. Ось як виглядає розподіл для повідомленого (лівого) та перерахованого (правого) -значень:pp

Кравчик

Різниця вражає. На лівій гістограмі показані деякі дивні речі, що відбуваються біля , а в правій - немає. Це означає, що цей дивний матеріал пояснюється перевагою людей щодо звітних значень приблизно а не через злому.p=0.05p0.05p

Массікампо і Лаланд

Схоже, першими, хто помітив передбачуване перевищення значень трохи нижче 0,05, були Masicampo & Lalande 2012 , переглядаючи три найкращі журнали з психології:p

Массікампо і Лаланд

Це виглядає вражаюче, але Lakens 2015 ( препринт ) у опублікованому коментарі стверджує, що це здається вражаючим лише завдяки оманливій експоненціальній придатності. Див. Також Lakens 2015, Про завдання складання висновків із p-значень трохи нижче 0,05 та посилань на них.

Економіка

zp

Бродевр

ppp<0.05


Помилково заспокоюєш?

ppp0.050.05

Урі Сімонсон стверджує, що це "помилково заспокійливо" . Ну, насправді він цитує ці документи не критично, але потім зазначає, що "більшість p-значень набагато менші", ніж 0,05. Потім він каже: "Це заспокоює, але помилково заспокоює". І ось чому:

Якщо ми хочемо знати, чи дослідники п-хакують їх результати, нам потрібно вивчити значення p, пов'язані з їх результатами, ті, які вони, можливо, хочуть в першу чергу зламати. Зразки, щоб бути неупередженими, повинні включати лише спостереження з боку населення, яке цікавить.

Більшість p-значень, повідомлених у більшості праць, не мають значення для стратегічної поведінки, що цікавить. Коваріати, маніпуляційні перевірки, основні ефекти в дослідженнях тестування взаємодій тощо. Включаючи їх, ми недооцінюємо p-хакерство і переоцінюємо доказову цінність даних. Аналіз усіх p-значень задає інше питання, менш розумне. Замість "Чи дослідники пхають те, що вони вивчають?", Ми запитуємо "Чи дослідники пхають усе?"

pppp

Сімонсон

p

Висновки

pp p0.05


4
simply because the researches chose what test to perform/report after looking at the dataТак; і проблема неминуча, оскільки двостулковий. Коли для даних вибирається кращий метод - це перевиконання конкретного зразка або зустріч технічних викликів цієї сукупності? Або - видалення інших людей - це підробка населення чи його відновлення? Хто скаже, зрештою?
ttnphns

Відповідь, на яку я найбільше сподівався, - це, мабуть, коротке уявлення про сучасну літературу, деякі вказівки на те, чи є праця Хед та ін., - це справедливий підсумок останнього мислення тощо. Я взагалі не очікував цієї відповіді. Але я думаю, що це здорово, і думки Гельмана та практичні уявлення особливо корисні. Коли я писав запитання, я мав на увазі подібні речі до @ttnphns (можливо, це показує, я навіть розглядав, включаючи слово "overfitting".)
Silverfish

Тим не менш, окрім загального і неминучого нездужання про те, як "працює наука на практиці", є недосконалою відповідністю припущенням статистичного тестування, мені цікаво, чи справді цей шахрай "темне мистецтво злісних п-хакерів" якщо так, то як далеко він досягне. Однозначно є сильні (помилкові) стимули для заохочення.
Срібна рибка

2
Ви зацікавили мене цим керівником та ін. папір, @Silverfish, тож я мушу визнати, що зараз, замість того, щоб працювати, я переглядаю деякі статті, де критикуються результати керівника та інших.
амеба

2
+1. Найновіша стаття в блозі Gelman ( andrewgelman.com/2016/03/09/… ) висвітлює багато підстав, і висвітлює цікаве повторне співпрацю з боку групи, яка намагалася виконати реплікації, а потім була піддана різкій критиці авторами оригінального дослідження: retractionwatch.com/ 2016/03/07 /…
Уейн

22

Сюжети воронки були надзвичайною статистичною інновацією, яка повернула мета-аналіз на голову. В основному сюжет воронки демонструє клінічну та статистичну значимість на тому ж графіку. В ідеалі вони мали б форму лійки. Однак декілька мета-аналізів створили воронкові сюжети, які демонструють сильну бімодальну форму, де дослідники (або видавці) вибірково затримували результати, які були недійсними. Результат полягає в тому, що трикутник стає ширшим, тому що в менших, малопотужних дослідженнях використовуються більш радикальні методи "заохочення" результатів для досягнення статистичної значущості. Командна доповідь Cochrane має про це сказати .

Якщо є упередження, наприклад, тому що менші дослідження без статистично значущих ефектів (показані як відкриті кола на рисунку 10.4.a, панель A) залишаються неопублікованими, це призведе до асиметричного вигляду ділянки воронки з зазором у нижньому куті графік (панель B). У цій ситуації ефект, обчислений у метааналізі, як правило, завищує ефект втручання (Egger 1997a, Villar 1997). Чим сильніше виражена асиметрія, тим більше шансів на те, що кількість зміщення буде значним.

Перший сюжет показує симетричний сюжет за відсутності упередженості. Другий показує асиметричний сюжет за наявності упередженості звітності. Третій показує асиметричний сюжет за наявності упередженості, оскільки деякі менші дослідження (відкриті кола) мають меншу методологічну якість і тому дають перебільшені оцінки ефекту втручання.

введіть тут опис зображення

введіть тут опис зображення

введіть тут опис зображення

Я підозрюю, що більшість авторів не знають про методи, якими вони користуються для злому. Вони не відслідковують загальну кількість моделей, які їм підходять, застосовуючи різні критерії виключення або кожен раз вибираючи різні змінні коригування. Однак, якби мені довелося призначити простий процес, я хотів би бачити загальну кількість моделей, що підходять. Це не означає, що для повторних моделей можуть бути законні причини, наприклад, ми просто провели аналіз Альцгеймера, не знаючи, що в зразку було зібрано ApoE. Яйце на моєму обличчі, ми переробили моделі.


4

2
Одним із аспектів мого запитання було відмінність між "p-хакерством" та "упередженістю публікації" - ця відповідь певним чином суперечить два. Чи було б я правильно трактувати те, що ви говорите таким чином, тобто "упередженість публікації - це, по суті, форма p-хакерства, але видавцем"?
Срібна рибка

1
pp

2
Хм. Спершу я хотів протестувати і стверджувати, що упередженість публікацій відрізняється від p-хакерства (схоже, я думаю, на те, як @Silverfish також обрамляв його Q), але потім я зрозумів, що провести межу складніше, ніж я спочатку думав. Проведення численних порівнянь у стилі желе-квасолі та лише повідомлення про значні (p-хакерство?) Не сильно відрізняється від проведення декількох досліджень та лише звітування про значні (що є упередженим виданням за визначенням). І все-таки p-хакерство в сенсі масажування даних до тих пір, поки вони не дадуть p <0,05, для мене не відчуваються досить різними.
амеба

2
pp
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.