Я знаю, що здійснення настроювання гіперпараметрів поза перехресної перевірки може призвести до упереджених високих оцінок зовнішньої дійсності, тому що набір даних, який ви використовуєте для вимірювання продуктивності, той самий, який ви використовували для налаштування функцій.
Мені цікаво, наскільки ця проблема погана . Я можу зрозуміти, як це було б по-справжньому погано для вибору функцій, оскільки це дає величезну кількість параметрів для настройки. Але що робити, якщо ви використовуєте щось на кшталт LASSO (у якого є лише один параметр, сила регуляризації) або випадковий ліс без вибору особливостей (який може мати декілька параметрів, але нічого не настільки драматичного, як додавання / скидання шумових функцій)?
Наскільки у цих сценаріях настільки сильно оптимістичними ви могли б сподіватися на вашу оцінку помилки тренувань?
Буду вдячний за будь-яку інформацію про це - приклади, документи, анекдати тощо. Дякую!
EDIT: Для уточнення, я не говорю про оцінку ефективності моделі за навчальними даними (тобто взагалі не використовую перехресну перевірку). Під "настроюванням гіперпараметрів поза перехресною валідацією" я маю на увазі використання перехресної валідації лише для оцінки продуктивності кожної окремої моделі, але не включаючи зовнішню, другу крос-валідаційну петлю, щоб виправити для підгонки в рамках процедури налаштування гіперпараметра (на відміну від перевиконання під час тренувальної процедури). Дивіться, наприклад, відповідь тут .