ІМХО однією з найгірших властивостей перевірки витримки є психологічна, а не статистична: я бачу багато затримок, які трактуються так, ніби це незалежний експеримент валідації (незалежність вже на експериментальному рівні), хоча багато хто з Найважливіші проблеми, які я бачу при валідації перекомпонування, можуть і трапляться так само, як і при затримці (будь-яка проблема, що виникає внаслідок неправильного розщеплення).
Крім цього, IMHO - це майже те саме, що перекомпонувати (принаймні, як я це бачив на практиці). Відмінності є
- загальна кількість фактично різних перевірених випадків є меншою (і, отже, оцінка є менш визначеною).
- Під час витримки продуктивність вимагається для фактично протестованої моделі, а не для фактично неперевіреної моделі, побудованої з відстеження витримки плюс дані про випробування. Переустановка стверджує, що вимірювані показники є хорошим наближенням до ефективності останньої моделі. Але я також бачив, що таким способом використовується підхід утримування ("встановлення перевірки").
Есбенсен та Геладі: Принципи належної перевірки: використання та зловживання повторним відбором проб для перевірки, Journal of Chemometrics, 24 (3-4), 168-187 стверджує, що на практиці обидва не є дуже хорошими наближеннями для наборів даних (валідація експерименти), які дозволяють виміряти дійсно цікаві експлуатаційні характеристики.
ви можете перетворитись на тестові дані так само, як і на навчальні дані.
Так само, як і при будь-якій іншій валідації: якщо ви робите моделювання на основі даних / вибір моделі, потрібен інший незалежний рівень перевірки. Я не бачу тут різниці між схемами відключення та перекомпонування.
спершу використовуючи валідацію затримки для складання та тестування моделі, потім як крок перевірки повторно намалював набір декількох разів, щоб показати, що мої оцінки помилки передбачення (на тестовому наборі) є надійними для помилки вибірки в тесті набір. Це погана ідея з якоїсь причини?
Я думаю, що так: так, IMHO слід використовувати вкладений настрій
(якщо ви не хочете припустити, що перевірка затримки може бути і повинна бути повторена також. Це вірний підхід, який відрізняється від ітераційного / повторного перевірки набору лише інтерпретацією : чи твердження про ефективність стосується багатьох перевірених моделей, чи екстраполюється на одну модель, побудовану з усіх даних).