Будучи (аналітичним) хіміком , я стикаюся з обома підходами: аналітичним розрахунком показників заслуг [переважно для однофакторної регресії], а також прямим вимірюванням прогнозних показників заслуг.
Розділення поїздів / тестів для мене - це "маленький брат" експерименту валідації для вимірювання якості передбачення.
Довга відповідь:
Типові експерименти, які ми робимо, наприклад, у бакалаврській фізичній хімії використовують одноманітну регресію. Властивістю, що цікавить, часто є параметри моделі, наприклад, константа часу при вимірюванні кінетики реакцій, але іноді і прогнози (наприклад, одновимірне лінійне калібрування для прогнозування / вимірювання деякого значення інтересу).
Ці ситуації є дуже доброякісними з точки зору непридатності: зазвичай залишається зручна кількість ступенів свободи після того, як всі параметри будуть оцінені, і вони використовуються для навчання (як у навчанні) студентів з класичним розрахунком довіри або інтервалу прогнозування та класичною помилкою розповсюдження - вони були розроблені для цих ситуацій. І навіть якщо ситуація не зовсім схожа на підручник (наприклад, у мене є структура в моїх даних, наприклад, в кінетиці я б очікував, що дані краще описуються різницею між прогонами реакції + дисперсією між вимірюваннями в пробігу, ніж через простий підхід, що стосується лише однієї дисперсії), як правило, я можу мати достатньо циклів експерименту, щоб все-таки отримати корисні результати.
pнп < рнннгf, класичні підходи не працюють. Але, оскільки я здебільшого роблю прогнози, у мене завжди є дуже пряма можливість вимірювання прогнозної здатності моєї моделі: я роблю прогнози та порівнюю їх із еталонними значеннями.
Цей підхід насправді є дуже потужним (хоча і дорогим через збільшення експериментальних зусиль), оскільки дозволяє мені перевірити якість прогнозування також для умов, які не були охоплені даними тренувань / калібрування. Наприклад, я можу оцінити, як якість прогнозування погіршується при екстраполяції (екстраполяція включає також, наприклад, вимірювання, проведені, скажімо, через місяць після придбання даних тренувань), я можу перевірити стійкість до заплутаних факторів, які, на мою думку, важливі тощо. Іншими словами , ми можемо вивчити поведінку нашої моделі так само, як ми вивчаємо поведінку будь-якої іншої системи: ми досліджуємо певні моменти, або порушуємо її і дивимось на зміну відповіді системи тощо.
Я б сказав, що чим важливіша якість прогнозування (і чим вищий ризик перевитрати), тим більше ми прагнемо віддавати перевагу прямим вимірюванням прогнозної якості, а не аналітично виведеним числам. (Звичайно, ми могли б включити всіх цих плутанини також у розробку навчального експерименту). Деякі сфери, такі як медична діагностика, вимагають проведення належних валідаційних досліджень, перш ніж модель буде "відпущена" на реальних пацієнтах.
Розщеплення поїзда / тесту (будь то протримане * або перехресне підтвердження, або поза завантаженням чи ...) полегшує цей крок легше. Ми зберігаємо додатковий експеримент і не екстраполюємо (ми лише узагальнюємо передбачення невідомих незалежних випадків того самого розподілу навчальних даних). Я б описав це як перевірку, а не перевірку (хоча тут валідація глибоко в термінології). Це часто прагматичний шлях, якщо немає занадто високих вимог до точності показників заслуг (можливо, їх не потрібно буде знати дуже точно в сценарії доведення концепції).
* не плутати жодного випадкового розбиття на поїзд і тест з правильно розробленим дослідженням для вимірювання якості прогнозування.