Я розумію, що навіть якщо в відповідності з належною перехресної процедурою вибору перевірки і моделі, перенавчання буде , якщо один шукає в моделі досить важко , якщо накласти обмеження на складності моделі, період. Крім того, часто люди намагаються навчитися штрафувати щодо складності моделі з даних, що підриває захист, який вони можуть надати.
Моє питання: Скільки правдивого є твердження вище?
Я часто чую, як лікарі-медики говорять: " У моїй компанії / лабораторії ми завжди намагаємося з кожної наявної моделі (наприклад, з бібліотек, як caret або scikit-learn ), щоб побачити, яка з них працює найкраще ". Я часто заперечую, що такий підхід може легко перетворити навіть у тому випадку, якщо вони серйозно ставляться до перехресної перевірки та зберігають набори, які вони хочуть. Крім того, чим важче вони шукають, тим більше шансів на те, що вони можуть переоцінити. Іншими словами, надмірна оптимізація - це справжня проблема, і немає евристики, яка допоможе вам систематично боротися з нею. Чи помиляюся я так думаю?