За допомогою k-кратної перехресної перевірки ви оцінюєте всі

Під час виконання перехресної перевірки k-fold, я розумію, що ви отримуєте метрику точності, вказуючи всі складки, крім однієї на цю складку, і роблячи передбачення, а потім повторюйте цей процес разів. Потім ви можете запустити показники точності на всіх ваших примірниках (точність, нагадування,% класифіковано правильно), яка повинна бути такою ж, як якщо б ви їх щоразу обчислювали, а потім усереднювали результат (виправте мене, якщо я помиляюся). $k$

Кінцевий результат, який ви хочете, - це остаточна модель.

Чи в середньому ви оцінюєте отримані моделі для того, щоб ваш набір передбачень закінчився моделлю, яка має показники точності, отримані вищевказаним методом? $k$

cross-validation

— Морж Кіт
джерело

$k$

Результати експерименту перехресної перевірки можуть сказати вам, що підтримка Vector Machines перетворює Naive Bayes на ваші дані, або що для цього конкретного набору даних слід встановити гіпер параметри класифікатора. Озброївшись цими знаннями, ви підготуєте класифікатор "виробництва" із ВСІМ наявними даними та застосуєте їх до своєї проблеми.

У багатьох випадках навіть не ясно, як би ви йшли на усереднення кількох моделей. Наприклад, яке середнє значення для трьох дерев рішень або класифікаторів найближчих сусідів?

Важливо пам’ятати, що результати перехресної перевірки - це оцінки, а не гарантії, і ці оцінки є більш достовірними, якщо виробничий класифікатор навчається з аналогічною якістю (і кількістю) даних. Була проведена велика робота над розробкою способів використання цих оцінок для виконання висновку; тобто, статистично обгрунтовано, що метод A, як правило, перевершує метод B за цими даними.

— Метт Краузе
джерело

Що є корисним посиланням на використання оцінок перехресної перевірки k-кратного для висновку? Я хотів би прочитати про це, якщо у вас є хороша частка.

— tentaclenorm

Гідним місцем для початку може стати iro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/…, але є купа різних підходів.

— Метт Крауз

ще одне, що слід уточнити: коли ми тренуємо класифікатор "виробництва", використовуючи всі дані, як ми розуміємо, коли зупинитись?

— Антон