Я читав цю статтю в "Природі", в якій деякі помилки пояснюються в контексті аналізу даних. Я помітив, що помилок техаських стрільців було особливо важко уникнути:
Пізнавальна пастка, яка чекає під час аналізу даних, ілюструється байкою техаського стрільця: невмілий стрілець, який вистрілює випадковим малюнком кульок збоку від сараю, малює ціль навколо найбільшого куля отворів кулі і гордо вказує на його успіх.
Його бичне око, очевидно, смішно - але помилка не така очевидна для азартних гравців, які вірять у «гарячу руку», коли у них є виграш, або для людей, які бачать надприродне значення, коли розіграш лотереї припадає на всі непарні числа.
І це завжди очевидно для дослідників. "Ви просто отримуєте певне заохочення від даних, а потім думаєте, ну це шлях, який потрібно пройти вниз", - каже Пашлер. "Ви не розумієте, що у вас було 27 різних варіантів, і ви вибрали той, який дав найприємніші чи найцікавіші результати, і тепер ви займаєтесь тим, що зовсім не є об'єктивним представленням даних. "
Я думаю, що такі розвідувальні роботи є звичними явищами, і часто гіпотези будуються на основі тієї частини аналізу. Існує цілий підхід ( EDA ), присвячений цьому процесу:
Джон Тукі сприяв дослідницькому аналізу даних, щоб заохотити статистиків вивчати дані та, можливо, сформулювати гіпотези, які можуть призвести до нового збору даних та експериментів
Схоже, що будь-який дослідницький процес, здійснений без попередньої гіпотези, схильний створювати помилкові гіпотези.
Зауважте, що опис ЗНО вище насправді говорить new data collection and experiments
. Я розумію, що після того, як будуть зібрані нові дані, тоді підходить підтверджуючий аналіз даних (CDA). Однак я не думаю, що це розмежування зроблено дуже чітко, і хоча розділення EDA і CDA було б ідеальним, але, безумовно, є деякі обставини, в яких це неможливо. Я б хотів сказати, що дотримуватися цього розмежування суворо є рідкістю, і більшість практикуючих не підпадають під парадигму ЗНО.
Отож, моє запитання таке: чи зробить EDA (або будь-який неофіційний процес дослідження даних) більш шансовим на те, що потрапила в помилку техаського стрільця?