Яка процедура "перевірки завантажувальної завантаження" (так само "перекомплектування перехресної перевірки")?

«Перевірка завантажувального завантаження» / «переспромінення перехресної перевірки» є для мене новим, але обговорювалося у відповіді на це питання . Я збираю, що це включає 2 типи даних: реальні дані та змодельовані дані, де заданий набір модельованих даних генерується з реальних даних шляхом перекомпонування з заміною, поки змодельовані дані не мають такого ж розміру, як реальні дані. Я можу придумати два підходи до використання таких типів даних: (1) один раз підходити до моделі, багато разів оцінювати її на багатьох модельованих наборах даних; (2) підходити до моделі багато разів, використовуючи кожен з багатьох модельованих наборів даних, щоразу оцінюючи її відповідно до реальних даних. Який (якщо є) найкращий?

— Майк Лоуренс
джерело

Коротка відповідь: Обидві методи перевірки включають навчання та тестування низки моделей.

Довга відповідь про те, як це зробити найкраще: це, звичайно, залежить. Але ось кілька думок, які я використовую, щоб керувати своїми рішеннями щодо перевірки переустановки. Я хімік, тому ці стратегії, а також терміни більш-менш тісно пов'язані з аналітико-хімічними проблемами.

Щоб трохи пояснити свої думки, я вважаю валідацію як вимірювання якості моделі, так і навчання як вимірювання параметрів моделі - це призводить до досить потужної аналогії з будь-яким іншим видом вимірювання.

Існує дві різні точки зору на ці підходи щодо перевірки:

Традиційною точкою зору для валідації повторної вибірки є: набір даних із повторної вибірки (іноді їх називають сурогатним набором даних або підмножиною) практично такий же, як оригінальний (реальний) набір даних.
Тому "сурогатна модель", придатна до сурогатного набору даних, практично така сама, як модель, що відповідає всій реальній сукупності даних. Але деякі зразки залишаються поза сурогатним набором даних, модель не залежить від них. Таким чином, я беру ті, що залишилися або вийшли з-під завантаження зразки, як незалежний валідаційний набір для сурогатної моделі і використовую результат як апроксимацію цілої моделі даних.
Однак модель сурогату часто насправді не еквівалентна моделі з цілими даними: для навчання було використано менше зразків (навіть для завантажувального періоду кількість різних зразків менше). Поки крива навчання зростає, сурогатна модель в середньому трохи гірша, ніж модель з цілими даними. Це добре відомий песимістичний ухил валідації перестановки (якщо ви закінчитеся з оптимістичним зміщенням, це, як правило, є показником того, що тестовий набір залишений / пробіг не був незалежним від моделі).
Друга точка зору полягає в тому, що перекомпонований набір даних є збуреною версією всього набору даних. Вивчення того, як сурогатні моделі (або їх прогнози для вибіркових / вибіркових зразків) відрізняються від моделі з цілими даними, потім розповідає про стабільність моделі стосовно навчальних даних.
З цієї точки зору, сурогатні моделі є чимось на зразок повторних вимірювань. Скажіть, ваше завдання - виміряти вміст якогось мінералу в цілому потязі руди. Руда не є однорідною. Тож ви берете фізичні зразки з різних місць, а потім переглядаєте загальний вміст та його зміни в поїзді. Аналогічно, якщо ви вважаєте, що модель може бути нестабільною, ви можете переглянути загальну продуктивність та варіації сурогатних моделей.

$n$
Я, як правило, повторюю випадки, наприклад, один випадок = всі вимірювання одного пацієнта. Тоді люди, які не знаходяться в сумці, - це всі пацієнти, у яких не проводиться жодних вимірювань у навчальних даних. Це корисно, якщо ви знаєте, що вимірювання одного випадку схожі між собою, ніж вимірювання інших випадків (або, принаймні, ви не можете виключати цю можливість).

Не те, щоб перевірка повторної вибірки дозволяє виміряти продуктивність для невідомих зразків. Якщо крім того, ви хочете виміряти продуктивність для невідомих майбутніх зразків (інструментальний дрейф!), То вам потрібен тестовий набір, який вимірюється "у майбутньому", тобто певний час після вимірювання всіх навчальних зразків. В аналітичній хімії це потрібно, наприклад, якщо ви хочете дізнатися, як часто потрібно повторювати калібрування свого приладу (для кожного визначення, щодня, щотижня, щомісяця, ...)

Bootstrap vs. крос-валідаційна термінологія :

перекомпонування з заміною часто називають завантажувальним,
переустановка без замісної перехресної перевірки.

Обидва можуть мати певну стратифікацію. Історично розщеплення для перехресної валідації (принаймні, в хіміометрії) часто проводилося невипадковим чином, наприклад, 3-кратна перехресна перевірка форми abcabc..abc (набір даних відсортовано Wrt. Результат) для калібрування / регресія, якщо у вас дуже мало випадків (фізичних вибірок), і ви хочете переконатися, що весь діапазон даних охоплений.

Обидві методи зазвичай повторюються / повторюються кілька разів. Знову з історичних причин і, щонайменше, у хіміометрії, k-кратне перехресне підтвердження часто означає навчання та тестування k моделей (кожна перевірена з 1 / kth даних, які не були залучені до навчання). Якщо таке випадкове розщеплення повторюється, люди називають його ітераційним або повторним перехресним підтвердженням.

$k$ $k$ $n$ $n$ $n$

Зауважте, що завантажувальний пристрій не підходить для деяких методів підгонки моделі, які спочатку видаляють повторювані вимірювання.
Існують деякі варіанти завантажувальної програми, наприклад .632-bootstrap та .632 + -bootstrap

$k$ $k$

— cbeleites підтримує Моніку
джерело

Довга відповідь приємна.

— Момо

(+1) велика перспектива. Я впевнений, що термін сурогат буде дотримуватися.

— steffen

@steffen, спасибі Я аж ніяк не винахідник цього терміна. Я думаю, що вперше я познайомився в якійсь статті У. Браги-Нето (можливо, цієї: ncbi.nlm.nih.gov/pubmed/14960464 ), але мене тут же переконали в терміні ...

— cbeleites підтримує Моніку

Щодо зауваження у питанні про модельовані дані. Запуск завантаження сам по собі не включає модельовані дані. Модельовані дані будуть використані як спосіб оцінити, чи працює метод завантаження на конкретну проблему. Але сама завантажувальна програма - це лише повторне використання даних на основі вибірки завантажувальної програми. Зразки, відібрані випадковим чином із заміною вихідного набору даних. Зазвичай це включає взяття n повторних зразків, де n - розмір вихідного зразка. Монте-Карло входить як спосіб наблизити розподіл завантажувального пристрою, фактично генеруючи зразки завантажувальної машини на комп'ютері.

— Майкл Р. Черник

Я не знаю про "найкраще" (що, мабуть, залежить від того, для чого ви його використовуєте), але я використовую перевірку завантаження, щоб оцінити помилку на нових даних наступним чином (третій спосіб, якщо вам подобається):

Накресліть навчальний набір з N спостережень з вихідних даних (розміром N) із заміною.
Встановіть модель до даних тренувань.
Оцініть модель на зразках з мішків

Те, що вийшло з сумки, не завжди чітко визначено. Часто саме ці спостереження не входили в навчальний набір. Більш суворо було б (я використовую це таким чином) мати лише спостереження у зразку oob, які мають реалізацію всього вектора прогнозів, який не є частиною навчального набору (що особливо корисно, якщо у вас є багато факторів). Навіть суворішим є використання зразка oob, який містить лише ті спостереження, які мають різну реалізацію змінної предиктора щодо предикторів, обраних у моделі (особливо корисно, якщо модель знайдена за допомогою якоїсь змінної процедури вибору, наприклад дерев).

Тоді я, як правило, повторюю це кілька разів і збираю результати за k-складками (середня або середня або будь-яка статистика корисна). Вибрана таким чином модель може бути пристосована до загального набору даних (як у вашому варіанті 2), щоб додатково оцінити, якщо все ще є тенденція до перевиконання (міра продуктивності повинна бути не надто далеко від зразків завантажувального завантаження).

Якщо у мене є більше моделей, сітка параметрів або подібні, я підключаю їх до кожного навчального набору і оцінюю їх на кожному зразку. Можливо також двічі не використовувати тренувальний набір, але для кожної моделі чи комбінації параметрів настройки можна намалювати нову пару тренувань / підключень.

Див., Наприклад, Проектування та аналіз експериментів із тестування .

— Момо
джерело