Мені було цікаво, чи відрізняється використання перехресної перевірки для пошуку найкращих параметрів настройки для різних методів машинного навчання, ніж провірка даних?
Ваше занепокоєння є правильним місцем, і на цю тему існує маса літератури, наприклад
- Cawley, GC & Talbot, NLC: Про перевиконання у виборі моделі та наступних зміщеннях вибору в оцінці продуктивності, Journal of Machine Learning Research, 11, 2079-2107 (2010).
- Boulesteix, A.-L .: Надоптимізм у дослідженнях біоінформатики., Bioinformatics, 26, 437-439 (2010). DOI: 10.1093 / біоінформатика / btp648
- Джелізаров, М .; Гільємот, В.; Тененхаус, А.; Strimmer, K. & Boulesteix, A.-L .: Надмірний оптимізм у біоінформатиці: ілюстрація., Біоінформатика, 26, 1990-1998 (2010). DOI: 10.1093 / біоінформатика / btq323
Проблема полягає в тому, що настройка гіперпараметрів з перехресною валідацією - це процес оптимізації, керований даними, і все ще буде, як правило, надмірним для набору даних (менше, ніж налаштування за помилкою повторної заміни, але все ж). Спроба використати результати перехресної настройки перевірки як "незалежну" міру продуктивності - таким чином, як поїсти пиріг (= налаштування) та зберегти (= виміряти результати остаточної моделі).
Це не означає, що не слід використовувати перехресну перевірку для настройки гіперпараметрів. Це просто означає, що ви можете використовувати його лише з однією метою. Або оптимізуйте, або виміряйте продуктивність моделі для цілей перевірки.
Рішення полягає в тому, що вам потрібно зробити незалежну перевірку для вимірювання якості моделі, отриманої за допомогою налаштованих гіперпараметрів. Це називається вкладеною або подвійною валідацією. Тут ви знайдете ряд питань та відповідей на ці теми
Концептуально я хочу сказати, що навчання включає всі види фантазійних кроків, щоб підходити не тільки до «звичайних» параметрів моделі, але й підходити (автоматично налаштовувати) гіперпараметри. Тож оптимізація λ на основі даних, безумовно, є частиною навчальної моделі.
Як правило, ви також можете сказати, що навчання моделей - це все, що потрібно зробити, перш ніж мати готову до використання остаточну функцію чорної скриньки, яка здатна виробляти прогнози для нових випадків.
PS: Я вважаю термінологію тестування порівняно з валідацією дуже заплутаною, оскільки в моєму полі «валідація» означає довести, що кінцева модель відповідає цілі, і тому те, що інші називають тестуванням, а не валідацією. Я вважаю за краще називати внутрішній тестовий набір "настроювальний тестовий набір", а зовнішній - "остаточний тестовий набір перевірки" тощо.
Оновлення:
Отже, якщо моя модель (тобто мій параметр настройки в цьому випадку) не дає зовнішньої перевірки, що мені робити?
Зазвичай це нічого, що просто відбувається: є типові ситуації, які можуть спричинити такий збій. І всі такі ситуації, про які я знаю, - це витончені ситуації. Вам потрібно пам’ятати, що хоча регуляризація допомагає зменшити необхідну кількість навчальних випадків, оптимізація, керована даними, потребує великих обсягів даних.
Мої рекомендації:
Як правило, у вас (слід) вже є грубі очікування, наприклад, яка ефективність повинна бути досяжна, яку роботу ви вважаєте підозріло гарною. Або уточнити, які показники потрібно досягти та базові показники. Виходячи з цього та кількості випадків навчальної програми (для схеми розбиття, яку ви вирішили), обчисліть очікувану невизначеність для внутрішніх (настроювання) тестів. Якщо ця невизначеність свідчить про те, що ви не зможете отримати змістовні порівняння, не робіть оптимізацію, керовану даними.
Ви повинні перевірити, наскільки стійкі як отримані прогнози з обраним λ, так і оптимальний λ, знайдений процедурою автоматичної настройки. Якщо λ не є достатньо стабільним щодо різних розділень ваших даних, оптимізація не працює.
Якщо ви виявите, що або не зможете зробити оптимізацію, керовану даними, або все-таки вона не спрацювала, ви можете вибрати λ за своїми експертними знаннями, наприклад, з досвіду подібних даних. Або ж завдяки знанню, що якщо ви дізнаєтесь, що оптимізація не вдалася, вам знадобиться більш сильна регуляризація: надмірна обробка, яка призводить до відмови, працює надто складними моделями.