Проблема з експедиціями на риболовлю полягає в наступному: якщо ви перевірите достатню кількість гіпотез, одна з них буде підтверджена з низьким значенням p. Дозвольте навести конкретний приклад.
Уявіть, що ви робите епідеміологічне дослідження. Ви знайшли 1000 пацієнтів, які страждають рідкісним станом. Ви хочете знати, що у них спільного. Отже, ви починаєте тестування - ви хочете побачити, чи певна характеристика в цій вибірці завищена. Спочатку ви перевіряєте стать, расу, певну історію сімейного життя (батько помер від хвороб серця до 50 років, ...), але, врешті-решт, коли у вас виникають проблеми з пошуком чого-небудь, що "стирчить", ви починаєте додавати всілякі інші фактори, які просто може стосуватися захворювання:
- вегетаріанське
- подорожував до Канади
- закінчив коледж
- одружений
- має дітей
- має котів
- має собак
- п’є щонайменше 5 склянок червоного вина на тиждень
...
Тепер ось річ. Якщо я виділяю достатньо "випадкових" гіпотез, починає ймовірність, що принаймні одна з них призведе до значення ap менше 0,05 - тому що сама сутність p значення - "ймовірність помилятися відхилити нульову гіпотезу, коли вона існує ефекту немає ". Інакше кажучи - в середньому за кожні 20 хибних гіпотез, які ви перевіряєте, одна з них дасть вам ап <0,05 .
Це дуже добре узагальнено в мультфільмі XKCD http://xkcd.com/882/ :
Трагедія полягає в тому, що навіть якщо окремий автор не виконає 20 різних тестів на гіпотезу для вибірки, щоб шукати значення, можливо, ще 19 авторів роблять те саме; і той, хто "знаходить" співвідношення, тепер має цікавий документ для написання, і той, який, ймовірно, буде прийнятий до публікації ...
Це призводить до невдалої тенденції до невідступних знахідок. Найкращий спосіб захиститись від цього як окремого автора - це встановити планку вище. Замість тестування на окремий фактор запитайте себе, "якщо я перевіряю N гіпотез, яка ймовірність появи хоча б одного помилкового позитивного". Коли ви справді тестуєте «гіпотези про риболовлю», ви можете подумати над тим, щоб зробити корекцію Бонферроні, щоб захиститись від цього - але люди часто цього не роблять.
Було кілька цікавих робіт доктора Іоанідеса - профільних в Атлантичному щомісяці спеціально на цю тему.
Дивіться також це попереднє запитання з кількома проникливими відповідями.
оновлення, щоб краще відповісти на всі аспекти вашого питання:
Якщо ви боїтесь, що ви можете "ловити рибу", але ви дійсно не знаєте, яку гіпотезу слід сформулювати, ви, безумовно, можете розділити свої дані на розділи "розвідка", "реплікація" та "підтвердження". В принципі, це повинно обмежувати вашу небезпеку, викладену раніше: якщо у даних розвідки у вас є значення ap 0,05 і ви отримуєте аналогічне значення в даних реплікації та підтвердження, ризик помилятися. Гарний приклад "робити це правильно" було показано в Британському медичному журналі (дуже шановане видання з фактором впливу 17+)
Дослідження та підтвердження факторів, пов’язаних із неускладненою вагітністю у породільних жінок: перспективне когортне дослідження, Chappell та ін
Ось відповідний параграф:
Ми розділили набір даних 5628 жінок на три частини: набір даних про дві третини жінок з Австралії та Нової Зеландії, вибраних навмання (n = 2129); локальний набір реплікацій решти третини жінок з Австралії та Нової Зеландії (n = 1067); і зовнішній, географічно чіткий набір підтверджень 2432 європейських жінок з Великобританії та Ірландії.
Повернувшись трохи до літератури, є хороший документ від Altman et al, який дає право "Прогноз та прогностичні дослідження: перевірка прогностичної моделі", який заглиблюється в більшу глибину, і пропонує способи переконатися, що ви не потрапите в ця помилка. "Основні моменти" статті:
Не підтверджені моделі не повинні використовуватися в клінічній практиці. Під час перевірки прогностичної моделі слід оцінювати калібрування та дискримінацію. Валідацію слід проводити за іншими даними, ніж ті, що використовуються для розробки моделі, бажано для пацієнтів в інших центрах. Моделі можуть не працювати на практиці через недоліки в методах розробки або через те, що новий зразок занадто відрізняється від оригіналу
Зокрема, зверніть увагу на пропозицію про те, що перевірка повинна проводитися (я перефразую) з даними з інших джерел - тобто недостатньо розділити свої дані довільно на підмножини, але ви повинні зробити все можливе, щоб довести, що "навчання" на множині з одного набору Експерименти можуть бути застосовані до даних з різних наборів експериментів. Це більш висока планка, але це ще більше знижує ризик того, що систематичне зміщення у вашій установці створює "результати", які неможливо перевірити незалежно.
Це дуже важлива тема - дякую за запитання!