Коротка відповідь: Обидві методи перевірки включають навчання та тестування низки моделей.
Довга відповідь про те, як це зробити найкраще: це, звичайно, залежить. Але ось кілька думок, які я використовую, щоб керувати своїми рішеннями щодо перевірки переустановки. Я хімік, тому ці стратегії, а також терміни більш-менш тісно пов'язані з аналітико-хімічними проблемами.
Щоб трохи пояснити свої думки, я вважаю валідацію як вимірювання якості моделі, так і навчання як вимірювання параметрів моделі - це призводить до досить потужної аналогії з будь-яким іншим видом вимірювання.
Існує дві різні точки зору на ці підходи щодо перевірки:
Традиційною точкою зору для валідації повторної вибірки є: набір даних із повторної вибірки (іноді їх називають сурогатним набором даних або підмножиною) практично такий же, як оригінальний (реальний) набір даних.
Тому "сурогатна модель", придатна до сурогатного набору даних, практично така сама, як модель, що відповідає всій реальній сукупності даних. Але деякі зразки залишаються поза сурогатним набором даних, модель не залежить від них. Таким чином, я беру ті, що залишилися або вийшли з-під завантаження зразки, як незалежний валідаційний набір для сурогатної моделі і використовую результат як апроксимацію цілої моделі даних.
Однак модель сурогату часто насправді не еквівалентна моделі з цілими даними: для навчання було використано менше зразків (навіть для завантажувального періоду кількість різних зразків менше). Поки крива навчання зростає, сурогатна модель в середньому трохи гірша, ніж модель з цілими даними. Це добре відомий песимістичний ухил валідації перестановки (якщо ви закінчитеся з оптимістичним зміщенням, це, як правило, є показником того, що тестовий набір залишений / пробіг не був незалежним від моделі).
Друга точка зору полягає в тому, що перекомпонований набір даних є збуреною версією всього набору даних. Вивчення того, як сурогатні моделі (або їх прогнози для вибіркових / вибіркових зразків) відрізняються від моделі з цілими даними, потім розповідає про стабільність моделі стосовно навчальних даних.
З цієї точки зору, сурогатні моделі є чимось на зразок повторних вимірювань. Скажіть, ваше завдання - виміряти вміст якогось мінералу в цілому потязі руди. Руда не є однорідною. Тож ви берете фізичні зразки з різних місць, а потім переглядаєте загальний вміст та його зміни в поїзді. Аналогічно, якщо ви вважаєте, що модель може бути нестабільною, ви можете переглянути загальну продуктивність та варіації сурогатних моделей.
н
Я, як правило, повторюю випадки, наприклад, один випадок = всі вимірювання одного пацієнта. Тоді люди, які не знаходяться в сумці, - це всі пацієнти, у яких не проводиться жодних вимірювань у навчальних даних. Це корисно, якщо ви знаєте, що вимірювання одного випадку схожі між собою, ніж вимірювання інших випадків (або, принаймні, ви не можете виключати цю можливість).
Не те, щоб перевірка повторної вибірки дозволяє виміряти продуктивність для невідомих зразків. Якщо крім того, ви хочете виміряти продуктивність для невідомих майбутніх зразків (інструментальний дрейф!), То вам потрібен тестовий набір, який вимірюється "у майбутньому", тобто певний час після вимірювання всіх навчальних зразків. В аналітичній хімії це потрібно, наприклад, якщо ви хочете дізнатися, як часто потрібно повторювати калібрування свого приладу (для кожного визначення, щодня, щотижня, щомісяця, ...)
Bootstrap vs. крос-валідаційна термінологія :
- перекомпонування з заміною часто називають завантажувальним,
- переустановка без замісної перехресної перевірки.
Обидва можуть мати певну стратифікацію. Історично розщеплення для перехресної валідації (принаймні, в хіміометрії) часто проводилося невипадковим чином, наприклад, 3-кратна перехресна перевірка форми abcabc..abc (набір даних відсортовано Wrt. Результат) для калібрування / регресія, якщо у вас дуже мало випадків (фізичних вибірок), і ви хочете переконатися, що весь діапазон даних охоплений.
Обидві методи зазвичай повторюються / повторюються кілька разів. Знову з історичних причин і, щонайменше, у хіміометрії, k-кратне перехресне підтвердження часто означає навчання та тестування k моделей (кожна перевірена з 1 / kth даних, які не були залучені до навчання). Якщо таке випадкове розщеплення повторюється, люди називають його ітераційним або повторним перехресним підтвердженням.
ккннн
- Зауважте, що завантажувальний пристрій не підходить для деяких методів підгонки моделі, які спочатку видаляють повторювані вимірювання.
- Існують деякі варіанти завантажувальної програми, наприклад .632-bootstrap та .632 + -bootstrap
кк