Утримування часто використовується синонімом перевірки з незалежним тестовим набором, хоча існують вирішальні відмінності між розділенням даних випадковим чином та розробкою експерименту перевірки незалежного тестування.
Незалежні тестові набори можуть бути використані для вимірювання ефективності узагальнення, які не можуть бути виміряні шляхом переустановки або перевірки перевірки, наприклад, продуктивність для невідомих майбутніх випадків (= випадки, які вимірюються пізніше, після закінчення навчання). Це важливо для того, щоб знати, як довго існуюча модель може використовуватися для нових даних (подумайте, наприклад, про переміщення інструменту). Більш загально це може бути описано як вимірювання ефективності екстраполяції з метою визначення меж придатності.
Інший сценарій, коли витримка насправді може бути корисною: дуже легко забезпечити належне розділення даних про навчання та тести - набагато простіше, ніж для перевірки повторної вибірки: наприклад
- вирішити поділ (наприклад, робити випадкове присвоєння справ)
- міра
- дані вимірювань та довідники навчальних випадків => моделювання \ ні вимірювання, ні посилання на тестові приклади не передаються особі, яка моделює.
- остаточна модель + вимірювання витриманих випадків => прогнозування
- порівняйте прогнози з посиланням на витримані випадки.
Залежно від необхідного рівня розмежування, кожен крок може зробити хтось інший. На першому рівні не передача будь-яких даних (навіть вимірювань) тестових випадків моделеру дозволяє бути дуже впевненим, що жодні дані тесту не просочуються в процес моделювання. На другому рівні остаточну модель та вимірювання тестових випадків можна було б передати ще комусь тощо.
Так, ви платите за це нижчою ефективністю оцінок виплати порівняно з валідацією повторної вибірки. Але я бачив багато статей, де я підозрюю, що перевірка перекомпонування не відокремлює належних випадків (у моєму полі у нас є багато кластерних / ієрархічних / згрупованих даних).
Я вивчив свій урок про витоки даних для повторного розміщення, відтягнувши рукопис через тиждень після подання, коли я виявив, що у мене в процесі розщеплення (невідомий підрахунок індексу) виявився попередньо не виявлений (шляхом проведення перестановочних тестів поряд).
Іноді витримка може бути ефективнішою, ніж пошук того, хто готовий вчасно вчасно перевірити код перекомпонування (наприклад, для кластерних даних), щоб отримати той самий рівень впевненості в результатах. Однак, IMHO, як правило, це не ефективно зробити перед тим, як ви перебуваєте на етапі, де вам все одно потрібно виміряти, наприклад, майбутні показники (перша точка) - іншими словами, коли вам все одно потрібно встановити експеримент перевірки для існуючої моделі.
OTOH, у невеликих розмірах вибірки, витримка не є можливим: вам потрібно провести достатньо тестових випадків, щоб результати тесту були досить точними, щоб можна було зробити необхідний висновок (пам’ятайте: 3 правильних з 3 тестових випадків для класифікації означає а двочленний 95% -ний довірчий інтервал, який знаходиться значно нижче 50:50 здогадів! 100 (тестових) випадків потрібні для належного вимірювання пропорції (наприклад, частки правильно передбачених випадків) з корисною точністю.
Оновлення: бувають ситуації, коли правильного розщеплення особливо важко досягти, а перехресне підтвердження стає неможливим. Розглянемо проблему з низкою плутанини. Розщеплення легко, якщо ці плутанини суворо вкладені (наприклад, дослідження з кількома пацієнтами містить кілька зразків кожного пацієнта та аналізує кількість клітин кожного зразка): ви розщеплюєте на найвищому рівні ієрархії вибірки (залежно від пацієнта) . Але у вас можуть бути незалежні плутанини, які не вкладаються, наприклад, щоденні зміни або дисперсія, спричинені різними експериментаторами, які виконують тест. Тоді вам потрібно переконатися, що розкол незалежний для всіхконфузерів на найвищому рівні (вкладені конфузери автоматично будуть незалежними). Піклуватися про це дуже важко, якщо деяких конфузів виявляють лише під час дослідження, а проектування та проведення експерименту валідації може бути ефективнішим, ніж боротьба з розщепленнями, які майже не дають даних ні для навчання, ні для тестування сурогатних моделей.