Помилковість техаського стрільця в дослідницькому аналізі даних


23

Я читав цю статтю в "Природі", в якій деякі помилки пояснюються в контексті аналізу даних. Я помітив, що помилок техаських стрільців було особливо важко уникнути:

Пізнавальна пастка, яка чекає під час аналізу даних, ілюструється байкою техаського стрільця: невмілий стрілець, який вистрілює випадковим малюнком кульок збоку від сараю, малює ціль навколо найбільшого куля отворів кулі і гордо вказує на його успіх.

Його бичне око, очевидно, смішно - але помилка не така очевидна для азартних гравців, які вірять у «гарячу руку», коли у них є виграш, або для людей, які бачать надприродне значення, коли розіграш лотереї припадає на всі непарні числа.

І це завжди очевидно для дослідників. "Ви просто отримуєте певне заохочення від даних, а потім думаєте, ну це шлях, який потрібно пройти вниз", - каже Пашлер. "Ви не розумієте, що у вас було 27 різних варіантів, і ви вибрали той, який дав найприємніші чи найцікавіші результати, і тепер ви займаєтесь тим, що зовсім не є об'єктивним представленням даних. "

Я думаю, що такі розвідувальні роботи є звичними явищами, і часто гіпотези будуються на основі тієї частини аналізу. Існує цілий підхід ( EDA ), присвячений цьому процесу:

Джон Тукі сприяв дослідницькому аналізу даних, щоб заохотити статистиків вивчати дані та, можливо, сформулювати гіпотези, які можуть призвести до нового збору даних та експериментів

Схоже, що будь-який дослідницький процес, здійснений без попередньої гіпотези, схильний створювати помилкові гіпотези.

Зауважте, що опис ЗНО вище насправді говорить new data collection and experiments. Я розумію, що після того, як будуть зібрані нові дані, тоді підходить підтверджуючий аналіз даних (CDA). Однак я не думаю, що це розмежування зроблено дуже чітко, і хоча розділення EDA і CDA було б ідеальним, але, безумовно, є деякі обставини, в яких це неможливо. Я б хотів сказати, що дотримуватися цього розмежування суворо є рідкістю, і більшість практикуючих не підпадають під парадигму ЗНО.

Отож, моє запитання таке: чи зробить EDA (або будь-який неофіційний процес дослідження даних) більш шансовим на те, що потрапила в помилку техаського стрільця?


3
Я не знаю точно, що ви маєте на увазі під помилковою гіпотезою. Дух дослідницького аналізу даних полягає в тому, щоб переглядати дані та бути відкритими до різних моделей, включаючи шаблони, яких ви не очікували. Не менше, і не набагато більше. Ніщо в дослідницькому аналізі даних не гарантує хороших ідей, і нічого не виключає і не дозволяє відмовлятися від критичного мислення або пов'язувати те, що ви робите з базовою наукою (широкий сенс). Отже, тут є певний ризик критикувати EDA за речі, які ніхто не зазнає. або ніхто не підтримує.
Нік Кокс

3
Найважче вивчити та викладати в EDA - це саме те, що тести значущості повинні допомогти (у найбільш оптимістичних записах): увійти в звичку не інтерпретувати деталі в даних, які не є досить важливими, щоб бути вартими уваги . Я можу стверджувати, що багато рахунків EDA не наполегливо наполягають на думці, що для того, щоб модель була сприйнята серйозно, вона повинна бути ідентифікованою в різних наборах даних, але це нехтування поширене в статистичній науці.
Нік Кокс

1
Спасибі. Проблема полягає в тому, що генерувати багато гіпотез і перевіряти їх в одному наборі даних дуже небезпечно, оскільки ви, ймовірно, підтвердите одну з них, навіть якщо вона помилкова. Як описано креозотом, потрібна корекція р-значень. На жаль, я ніколи не бачив цього робити на практиці.
Роберт Сміт

2
Навчаючись (французької) EDA на початку 1980-х, у мене склалося враження, що насправді набагато простіше зв'язати свій аналіз до наміченого висновку (-ів), ніж із сильнішою статистичною структурою ...
Xi'an

Відповіді:


12

Якщо хтось розглядає роль EDA суворо як генеруючу гіпотезу, то жодна помилкова помилка не застосовується. Однак дуже важливо, щоб наступні підтверджуючі випробування були справді незалежними. Багато дослідників намагаються «узгодити відмінності» з такими речами, як об'єднані аналізи, метааналізи та байєсівські методи. Це означає, що принаймні деякі докази, представлені в такому аналізі, включають "коло навколо випадкових отворів кулі".


5
Саме так. Проблема з настільки великим аналітичним аналізом даних полягає в тому, що один і той же набір використовується як для тренувань (визначення місця приземлення куль), так і для тестування (малювання кола навколо них).
Майкл К

11

Це малює дуже негативне бачення дослідницького аналізу даних. Хоча аргумент не є помилковим, він насправді говорить: "що може піти не так, коли я дуже важливо використовую інструмент неправильно?"

Прийняття нерегульованих p-значень від методів EDA призведе до сильно завищених показників помилок типу I. Але я думаю, що Тукі не був би задоволений тим, хто це робить. Сенс EDA полягає не в тому, щоб робити остаточні висновки про співвідношення даних, а в тому, щоб шукати потенційні нові стосунки в даних, які слід переглянути.

Відмова від цього кроку в більшому науковому процесі по суті перешкоджає науці ніколи не в змозі знайти нові цікаві аспекти наших даних, поза чистим логічним виведенням. Коли-небудь намагайтеся логічно вивести, як над експресією набору генів вплине виживання клітини? Підказка: це не дуже просто (один з наших улюблених анекдотів серед співробітників біоінформатики на моїй роботі був, коли фізик запитав "Чому ви просто не імітуєте фізичні властивості різних взаємодій генів? Це простір з кінцевими параметрами".

Особисто я думаю, що плутанина з цього приводу може призвести до значного уповільнення наукового прогресу. Я знаю занадто багато нестатистичних дослідників, які заявляють, що вони не хочуть робити процедури ОВР за попередніми даними, оскільки вони «знають, що ЗНО може бути поганим».

На закінчення абсолютно вірно, що використання методів EDA та трактування їх як підтверджуючих методів аналізу даних призведе до недійсних результатів. Однак відсутність належного використання EDA може призвести до майже ніяких результатів.


Дякую. Я б не переживав надто багато про те, щоб мало людей займалося якимось пошуковим аналізом. Я думаю, що все навпаки; багато людей роблять цю дослідницьку роботу, але, ймовірно, не вживаючи адекватних запобіжних заходів для запобігання помилок I типу, як ви описали. Однак цікаво, що ви знаєте людей, які мають негативну думку щодо ЗНО. Якщо вони не хочуть робити це за попередніми даними, то коли їм буде комфортно виконувати роботу EDA (або EDA)?
Роберт Сміт

Мій досвід полягає в тому, що нестатистичні дослідники звикли слухати "багаторазові порівняння проблематичні", і тому, коли вони приходять до мене з даними, вони хочуть сказати, що хочуть уникнути багаторазового порівняння, навіть із попередніми даними. Звичайно, більш повне розуміння проблеми полягало б у тому, що ви хочете уникнути багаторазового порівняння в дослідженні CDA.
Cliff AB

Я розумію. Це має більше сенсу.
Роберт Сміт

5

Схоже, що будь-який дослідницький процес, здійснений без попередньої гіпотези, схильний створювати помилкові гіпотези.

Я хотів би загартувати це твердження і висловити його трохи інакше: Вибір гіпотези для тестування на основі даних підриває тест, якщо не використовувати правильну нульову гіпотезу. Основна стаття статті "Природа" по суті полягає в тому, що аналітикам легко зауважити, що вони ігнорують усі численні порівняння, які вони неявно роблять під час дослідження.

Природа цитує Ендрю Гелмана, але не згадує його статтю з Еріком Локеном про цю тему. Уривок:

Коли висловлюються критичні зауваження щодо декількох зіставлень стосовно деяких робіт, які ми тут обговорюємо, дослідники ніколи не відповідають, що вони достроково обрали всі деталі їх обробки та аналізу даних; швидше, вони стверджують, що вони взяли лише один аналіз для конкретних даних, які вони бачили . Як інтуїтивно зрозуміла ця захист, вона не стосується фундаментальної частолістської турботи про багаторазове порівняння.

Ще:

Справа не в тому, що дослідники проводили сотні різних порівнянь та відбирали ті, які були статистично значущими. Швидше, вони починають з дещо сформованої думки про те, яке порівняння виконувати, і вони уточнюють цю ідею з огляду на дані. Вони побачили візерунок червоного та рожевого, і вони поєднували кольори.

Коротко:

Існує суцільне відображення від наукових до статистичних гіпотез.

І ще один, наголос мій:

У всіх обговорених нами випадках опублікований аналіз містить історію, яка відповідає науковим гіпотезам, що мотивували роботу, але інші моделі даних (які, враховуючи розміри вибірки, могли легко виникнути випадково), природно призвели до різні аналізи даних (наприклад, орієнтація на основні ефекти, а не на взаємодії або інший вибір наборів даних для порівняння), які однаково могли бути використані для підтримки гіпотез дослідження. Результатом залишається, як ми писали десь, свого роду машина для створення та оприлюднення випадкових зразків.

Одним словом, не так, що EDA призводить до "хибної гіпотези"; це те, що тестування гіпотези з тим самим набором даних, що спонукало гіпотезу, може призвести до помилкових висновків.

Якщо вам цікаво перемогти цю перешкоду, у Гельмана є ще один документ, який стверджує, що багато з цих проблем зникають у байєсівських рамках, а папір з Локеном посилається на "реплікацію перед публікацією", як анекдотично описану в першому розділі цього документу .


Дякую. Дуже цікаво. Я розгляну статтю Гельмана на кількох порівняннях.
Роберт Сміт

3

Майже за визначенням, так, звичайно, EDA без CDA приваблює техаських гострих піктограм.

pp


Дякую. Так, потрібна корекція. Я не думаю, що врахувати це дуже часто.
Роберт Сміт

3

Просто на додаток до вже чудових відповідей: Існує середина між повною CDA і прийняттям результатів EDA за номіналом. Виявивши можливу особливість, що цікавить (або гіпотезу), ви можете зрозуміти її надійність, виконавши перехресну перевірку (CV) або моделювання завантажувального завантаження. Якщо ваші висновки залежать лише від кількох ключових спостережень, то CV або Bootstrap покажуть, що багато зразків складок (CV) або boostrap не відтворюють спостережувану особливість.

Це не дурний метод, але це хороша проміжна перевірка перед тим, як отримати повний CDA (або цілеспрямовано провести "набір перевірки" з вашого початкового пулу даних).


0

Найсуворішим критерієм вибору моделі даних є ступінь, наближений до Колмогорова Складність даних - тобто ступінь, до якого він без втрат стискає дані. Теоретично це може бути результатом лише дослідницького аналізу даних.

Див. " Причинно-деконволюція алгоритмічними генеративними моделями "

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.