Оптимізація: корінь всього зла в статистиці?

Я чув таке вираз раніше:

"Оптимізація - корінь усього зла в статистиці".

Наприклад, головна відповідь у цій темі робить це твердження з посиланням на небезпеку занадто агресивної оптимізації під час вибору моделі.

Перше моє запитання наступне: Чи цитата може бути приписана комусь зокрема? (наприклад, у статистичній літературі)

Як я розумію, у заяві йдеться про ризики перевиконання. Традиційна мудрість сказала б, що правильна перехресна перевірка вже бореться з цією проблемою, але схоже, що до цієї проблеми є більше, ніж до цього.

Чи повинні статисти та практикуючі з МЛ насторожено ставляться до надмірної оптимізації своїх моделей навіть при дотриманні строгих протоколів перехресної перевірки (наприклад, 100 вкладених 10-кратних резюме)? Якщо так, то як ми можемо знати, коли припинити пошук "найкращої" моделі?

cross-validation optimization overfitting

— Амеліо Васкес-Рейна
джерело

Друге питання, безумовно, стоїть самостійно, чи не так?

— russellpierce

@Glen_b Я залишив посилання в цій темі. Але для уточнення Дікран вже запропонував відкрити подальші запитання до своєї відповіді окремими темами, і я сумніваюся, що це питання слід вирішити в коментарі.

— Амеліо Васкес-Рейна

@ RussellS.Pierce Правка, яка містила запитання, як воно є зараз - хоча воно було зроблене до мого коментаря - не було, коли я його завантажив і почав досліджувати оригінальне запитання та можливі відповіді, він мав лише те, що я описав як риторичне питання там. Питання, яке зараз стоїть, добре.

— Glen_b -Встановити Моніку

Проблема перехресної перевірки розглянута в іншому питанні тут: stats.stackexchange.com/questions/29354/… Перехресне підтвердження може допомогти уникнути переналагодження , але це не вирішує проблему повністю. Знання, коли зупинитись, може бути надзвичайно складною проблемою, і я не думаю, що може бути загальне рішення.

— Дікран Марсупіал

"належна перехресна перевірка вже бореться з цією проблемою, але, схоже, до цієї проблеми є більше." Так: проблема все ще полягає в дисперсії оцінок перехресної валідації (у поєднанні з багаторазовим тестуванням). Якщо я знайду час, напишу відповідь на ваше пов’язане питання.

— cbeleites підтримує Моніку

Відповіді:

Цитата - це парафраза цитати Дональда Кнута , яку він сам приписував Хоару. Три витяги з вищевказаної сторінки:

Передчасна оптимізація - корінь усього зла (або, принаймні, більшості) в програмуванні.

Передчасна оптимізація - корінь усього зла.

Кнут називає це 15 роком пізніше «Діктатом Хоара» ...

Я не знаю, що я згоден із переказами статистики *. У статистиці багато «зла», яке не стосується оптимізації.

Чи повинні фахівці-статистики та медичні працівники завжди насторожено ставляться до надмірної оптимізації своїх моделей навіть при дотриманні строгих протоколів перехресної перевірки (наприклад, 100 вкладених 10-кратних резюме)? Якщо так, то як ми можемо знати, коли припинити пошук "найкращої" моделі?

Я думаю, що найважливіше - це повністю зрозуміти (або наскільки це можливо) властивості процедур, які ви проводите.

$\,^\text{* I won't presume to comment on Knuth's use of it, since there's little I could}$ $\quad ^\text{say that he couldn't rightly claim to understand ten times as well as I do.}$

— Glen_b -Встановити Моніку
джерело

Дякую, це корисно. Я думаю, що є кілька цікавих зв’язків між дозрілою оптимізацією в програмуванні та надмірною підготовкою. Цікаво, чи є в нашій громаді подібні цитати, і чи існує жорсткий спосіб боротьби з цим у статистиці.

— Амеліо Васкес-Рейна

Моє використання фрази було натхнене Кнутом, хоча причина в іншому, і з байєсівської точки зору майже вся оптимізація - це погано, а маргіналізація - це краще.

— Дікран Марсупіал

Кілька способів ви зможете проаналізувати цитату (у статистиці), якщо припустити, що оптимізація стосується вибору моделі, керованої даними:

Якщо ви дбаєте про прогнозування, вам може бути краще з усередненням моделі, а не вибору однієї моделі.
Якщо ви обрали модель на тому ж наборі даних, який використовується для підключення моделі, вона спричинить хаос для звичайних інструментів / процедур висновку, які передбачають, що ви обрали модель апріорі . (Скажімо, ви робите поетапну регресію, вибираючи розмір моделі за допомогою перехресної перевірки. Для частотного аналізу звичайні р-значення або ІС для обраної моделі будуть невірними. Я впевнений, що є відповідні проблеми для байєсівських аналізів, що передбачають модель відбір.)
Якщо ваш набір даних достатньо великий у порівнянні з сімейством моделей, які ви вважаєте, переоснащення може навіть не бути проблемою, і вибір моделі може бути непотрібним. (Скажімо, ви збираєтесь підходити до лінійної регресії, використовуючи набір даних з кількома змінними та дуже багатьма спостереженнями. Будь-які помилкові змінні в будь-якому разі повинні отримувати коефіцієнти, близькі до 0, тому, можливо, вам навіть не потрібно турбуватися про вибір меншої моделі.)
Якщо ваш набір даних досить малий, у вас може бути недостатньо даних, щоб підходити до "справжньої" чи "найкращої" моделі для проблеми. Що означає навіть зробити вибір моделі в цьому випадку добре? (Повернутися до лінійної регресії: ви повинні прагнути , щоб вибрати «справжню» модель з потрібними змінними, навіть якщо у вас немає достатньо даних , щоб виміряти їх все адекватно , якщо ви просто вибрати найбільшу модель , для якої ви дійсно маєте достатньо даних ?)
Нарешті, навіть коли зрозуміло, що можна і потрібно робити вибір моделі, перехресне підтвердження не є панацеєю. Він має багато варіантів і навіть свій власний параметр настройки (кількість складок або коефіцієнт поїздів: тест), який впливає на його властивості. Тому не слід довіряти цьому сліпо.

— цивільний стан
джерело