Чи можна змінити гіпотезу, щоб відповідати спостережуваним даним (ака риболовецька експедиція) та уникнути збільшення помилок типу I?


32

Добре відомо, що дослідникам слід витрачати час на спостереження та дослідження існуючих даних та досліджень, перш ніж формувати гіпотезу, а потім збирати дані для перевірки цієї гіпотези (маючи на увазі тестування на значення нульової гіпотези). Багато базових книг статистики попереджають, що гіпотези повинні формуватися апріорно і не можуть бути змінені після збору даних, інакше методологія стає недійсною.

Я розумію, що одна з причин зміни гіпотези на відповідність спостережуваним даним є тим, що більший шанс допустити помилку I типу через помилкові дані, але моє запитання: це лише причина чи є інші фундаментальні проблеми з переходом на риболовну експедицію?

Як бонусне питання, чи існують способи піти на рибальські експедиції, не піддаючись себе на потенційні підводні камені? Наприклад, якщо у вас є достатня кількість даних, чи можете ви створити гіпотези з половини даних, а потім використати другу половину для їх перевірки?

оновлення

Я ціную інтерес до мого питання, але відповіді та коментарі здебільшого спрямовані на те, що я вважав, що я встановив як основну інформацію. Мені цікаво дізнатись, чи є інші причини, чому це погано за вищою можливістю помилкових результатів, і якщо існують способи, такі як розділення даних спочатку, зміни гіпотези пост-хок, але уникнення збільшення помилок типу I.

Я оновив заголовок, щоб сподіватися відобразити порив мого питання.

Дякую і вибачте за плутанину!



1
Займаючи іншу точку зору на вже сказане: Суть наукового методу полягає в тому, щоб зробити гіпотези, а потім спробувати підробити їх, щоб вони могли стати теоріями (якщо фальсифікація не вдасться). Вирушати на риболовну експедицію - це вірний спосіб знайти гіпотези, які варто підробити в подальшому експерименті, але ви ніколи не можете зробити і спробувати підробити гіпотезу за один раз. Зокрема, якщо ви відкриті для коригування своєї гіпотези, ви більше не намагаєтесь її фальсифікувати. Натомість, коли ви коригуєтесь, ви фальсифікуєте свою невідкориговану гіпотезу та формуєте нову гіпотезу.
Wrzlprmft

@jona, це чудова папір. Я вже читав статті Іоаннідіса та Школера, але Сіммонс та ін чудово ілюструють проблему.
post-hoc

1
Мені цікаво, чи ви також знайдете цей документ, що відповідає вашому питанню: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Це не зовсім на одній темі, але це стосується одного її аспекту.
a11msp

1
Дані можуть змусити вас змінити гіпотезу ... але в цьому випадку вам потрібно почати збирати нові дані з нуля, щоб підтвердити нову гіпотезу.
кешлам

Відповіді:


54

Звичайно, ви можете піти на рибальські експедиції, якщо ви визнаєте, що це рибальська експедиція і ставитесь до неї як до такої. Більш приємною назвою для цього є "дослідницький аналіз даних".

Кращою аналогією може бути стрілянина в ціль:

Ви можете стріляти в ціль і святкувати, якщо потрапите в око биків.

Ви можете стріляти без мети, щоб перевірити властивості свого пістолета.

Але це обман, щоб стріляти в стіну, а потім намалювати ціль навколо отвору від кулі.

Одним із способів уникнути деяких проблем із цим є проведення дослідження в наборі даних для тренувань, а потім тестування на окремому "тестовому" наборі даних.


13
На відповідь Петра важко покращити. Прикрою проблемою з великою кількістю днопоглиблювальних даних є відсутність визнання авторами того, що гіпотези були не заздалегідь уточнені, тобто використання терміна «дослідницький». Багато, багато дослідників днопоглиблюють дані, щоб отримати публікаційний папір і не слідкувати за будь-якими спробами валідації (що часто їх розчарує).
Френк Харрелл

2
Зробивши коментар Френка Харрелла на крок далі: правомірно вивчити деякі дані та опублікувати інтригуючу знахідку ... як інтригуючу, дослідницьку знахідку, яка підлягає відтворенню / підтвердженню. Мінус полягає в тому, що якщо хтось інший підтвердить ваші висновки, він може отримати славу, а якщо інші не підтвердять ваші результати, вас обдурили хибні кореляції. Погано, якщо у вас є велике его. Не кажучи вже про те, що вам потрібно зробити свої дані та процедури загальнодоступними, що багато практикуючих у багатьох сферах не роблять. І вам слід слідкувати за новими даними, а не рухатися далі.
Уейн

11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD

3
@ post-hoc добре, це не повинно піднімати брови, але це може. Залежить від того, чиї очі під бровами!
Пітер Флом - Відновіть Моніку

2

25

Проблема з експедиціями на риболовлю полягає в наступному: якщо ви перевірите достатню кількість гіпотез, одна з них буде підтверджена з низьким значенням p. Дозвольте навести конкретний приклад.

Уявіть, що ви робите епідеміологічне дослідження. Ви знайшли 1000 пацієнтів, які страждають рідкісним станом. Ви хочете знати, що у них спільного. Отже, ви починаєте тестування - ви хочете побачити, чи певна характеристика в цій вибірці завищена. Спочатку ви перевіряєте стать, расу, певну історію сімейного життя (батько помер від хвороб серця до 50 років, ...), але, врешті-решт, коли у вас виникають проблеми з пошуком чого-небудь, що "стирчить", ви починаєте додавати всілякі інші фактори, які просто може стосуватися захворювання:

  • вегетаріанське
  • подорожував до Канади
  • закінчив коледж
  • одружений
  • має дітей
  • має котів
  • має собак
  • п’є щонайменше 5 склянок червоного вина на тиждень
    ...

Тепер ось річ. Якщо я виділяю достатньо "випадкових" гіпотез, починає ймовірність, що принаймні одна з них призведе до значення ap менше 0,05 - тому що сама сутність p значення - "ймовірність помилятися відхилити нульову гіпотезу, коли вона існує ефекту немає ". Інакше кажучи - в середньому за кожні 20 хибних гіпотез, які ви перевіряєте, одна з них дасть вам ап <0,05 .

Це дуже добре узагальнено в мультфільмі XKCD http://xkcd.com/882/ :

введіть тут опис зображення

Трагедія полягає в тому, що навіть якщо окремий автор не виконає 20 різних тестів на гіпотезу для вибірки, щоб шукати значення, можливо, ще 19 авторів роблять те саме; і той, хто "знаходить" співвідношення, тепер має цікавий документ для написання, і той, який, ймовірно, буде прийнятий до публікації ...

Це призводить до невдалої тенденції до невідступних знахідок. Найкращий спосіб захиститись від цього як окремого автора - це встановити планку вище. Замість тестування на окремий фактор запитайте себе, "якщо я перевіряю N гіпотез, яка ймовірність появи хоча б одного помилкового позитивного". Коли ви справді тестуєте «гіпотези про риболовлю», ви можете подумати над тим, щоб зробити корекцію Бонферроні, щоб захиститись від цього - але люди часто цього не роблять.

Було кілька цікавих робіт доктора Іоанідеса - профільних в Атлантичному щомісяці спеціально на цю тему.

Дивіться також це попереднє запитання з кількома проникливими відповідями.

оновлення, щоб краще відповісти на всі аспекти вашого питання:

Якщо ви боїтесь, що ви можете "ловити рибу", але ви дійсно не знаєте, яку гіпотезу слід сформулювати, ви, безумовно, можете розділити свої дані на розділи "розвідка", "реплікація" та "підтвердження". В принципі, це повинно обмежувати вашу небезпеку, викладену раніше: якщо у даних розвідки у вас є значення ap 0,05 і ви отримуєте аналогічне значення в даних реплікації та підтвердження, ризик помилятися. Гарний приклад "робити це правильно" було показано в Британському медичному журналі (дуже шановане видання з фактором впливу 17+)

Дослідження та підтвердження факторів, пов’язаних із неускладненою вагітністю у породільних жінок: перспективне когортне дослідження, Chappell та ін

Ось відповідний параграф:

Ми розділили набір даних 5628 жінок на три частини: набір даних про дві третини жінок з Австралії та Нової Зеландії, вибраних навмання (n = 2129); локальний набір реплікацій решти третини жінок з Австралії та Нової Зеландії (n = 1067); і зовнішній, географічно чіткий набір підтверджень 2432 європейських жінок з Великобританії та Ірландії.

Повернувшись трохи до літератури, є хороший документ від Altman et al, який дає право "Прогноз та прогностичні дослідження: перевірка прогностичної моделі", який заглиблюється в більшу глибину, і пропонує способи переконатися, що ви не потрапите в ця помилка. "Основні моменти" статті:

Не підтверджені моделі не повинні використовуватися в клінічній практиці. Під час перевірки прогностичної моделі слід оцінювати калібрування та дискримінацію. Валідацію слід проводити за іншими даними, ніж ті, що використовуються для розробки моделі, бажано для пацієнтів в інших центрах. Моделі можуть не працювати на практиці через недоліки в методах розробки або через те, що новий зразок занадто відрізняється від оригіналу

Зокрема, зверніть увагу на пропозицію про те, що перевірка повинна проводитися (я перефразую) з даними з інших джерел - тобто недостатньо розділити свої дані довільно на підмножини, але ви повинні зробити все можливе, щоб довести, що "навчання" на множині з одного набору Експерименти можуть бути застосовані до даних з різних наборів експериментів. Це більш висока планка, але це ще більше знижує ризик того, що систематичне зміщення у вашій установці створює "результати", які неможливо перевірити незалежно.

Це дуже важлива тема - дякую за запитання!



2
@jens - це набагато красномовніше пояснення, ніж те, що я дав ... Дякую за це посилання. Як завжди - зробити наведіть курсор миші на мульт для маленького Зінгер.
Флоріс

Іоанідес і стаття Лерера - це шлях, який привів мене сюди. Ваш приклад подібний до прикладу в Simmons et al, згаданого @jona. Це дуже вдалий спосіб пояснити збільшення ймовірності помилок типу I, але чи є інші причини, чому це погано?
post-hoc

1
Проблема з днопоглибленням даних взагалі полягає в тому, що ви ризикуєте переплутати "кореляцію" з "причинно-наслідковою причиною". Спершу висуваючи обґрунтовану гіпотезу , потім підтверджуючи, що це допомагає пояснити спостереження, ви обмежуєте ризик сплутати їх. "Великі дані" часто йдуть іншим шляхом - їх модус роботи - "якщо я проаналізую достатню кількість даних, я побачу закономірності, які справдилися в минулому, і які будуть мати місце в майбутньому". Іноді це працює, іноді - ні. Статистика ніколи не повинна стати заміною мислення та розуміння - лише колись підтвердженням .
Флоріс

6
Я не думаю, що основним питанням є кореляція проти причинно-наслідкового зв’язку. Легко зробити невдалий кореляційний аналіз лише для того, щоб виявити, що асоціації не повторюються.
Френк Харрелл

5

Питання задає питання, чи існують інші проблеми, крім інфляції помилок I типу, які пов'язані з риболовними експедиціями.

0

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.