Ідея адаптивного аналізу даних полягає в тому, що ви змінюєте свій план аналізу даних, коли ви дізнаєтесь більше про них. Що стосується дослідницького аналізу даних (EDA), це, як правило, гарна ідея (ви часто шукаєте непередбачені зразки в даних), але для підтверджуючого дослідження це широко сприймається як дуже хибний метод аналізу (якщо не всі кроки чітко визначені та належним чином сплановані наперед).
При цьому, адаптивний аналіз даних зазвичай полягає в тому, скільки дослідників насправді проводять свої аналізи, що дуже шкодить статистикам. Як таке, якби це можна було зробити статистично обґрунтованим чином, це зробило б революційну статистичну практику.
Наступна стаття Science стверджує, що знайшла спосіб зробити таке (прошу вибачення за платну стіну, але якщо ви перебуваєте в університеті, ви, ймовірно, маєте доступ): Dwork et al, 2015, Проведення повторного використання: Збереження дійсності в адаптивному аналізі даних .
Особисто я завжди скептично ставився до статистичних статей, опублікованих у Science , і ця не відрізняється. Насправді, прочитавши статтю двічі, включаючи додатковий матеріал, я не можу зрозуміти (взагалі), чому автори стверджують, що їх метод перешкоджає надмірному розміщенню.
Я розумію, що у них є набір даних про тримання, який вони повторно використовуватимуть. Вони, схоже, стверджують, що "запаленням" результатів підтверджуючого аналізу на наборі даних про тримання, запобігання надмірного пристосування буде попереджено (варто відзначити, що наплавлення, здається, просто додає шум, якщо обчислена статистика на даних тренувань є достатньо далеко з обчисленої статистики за даними про тримання ). Наскільки я можу сказати, немає жодної реальної причини, яка мала б запобігти надмірному розміщенню.
Я помиляюся, що пропонують автори? Чи є якийсь тонкий ефект, який я не помічаю? Чи наука схвалила найгіршу статистичну практику на сьогоднішній день?