Коли не використовувати перехресну перевірку?

Коли я читаю на сайті, більшість відповідей свідчать про те, що крос-валідація повинна здійснюватися в алгоритмах машинного навчання. Однак, читаючи книгу "Розуміння машинного навчання", я побачив, що існує вправа, що іноді краще не використовувати перехресну перевірку. Я справді розгублений. Коли алгоритм тренінгу для всіх даних кращий, ніж перехресне підтвердження? Чи трапляється це в реальних наборах даних?

Нехай бути k гіпотези класів. Припустимо, вам наводяться iid приклади навчання, і ви хочете вивчити клас . Розглянемо два альтернативних підходи: $H_1,...,H_k$ $m$ $H=\cup^k_{i=1}H_i$

Дізнайтеся на прикладах, використовуючи правило ERM $H$ $m$

Розділіть m приклади на навчальний набір розміром та набір валідації розміру для деяких . Потім застосуйте підхід вибору моделі за допомогою перевірки. Тобто, у -перше навчати кожен клас на прикладів навчання з використанням правила ERM по відношенню до , і нехай $(1−\alpha)m$ $\alpha m$ $\alpha\in(0,1)$ $H_i$ $(1−\alpha)m$ $H_i$ $\hat{h}_1,\ldots,\hat{h}_k$ бути результуючими гіпотезами. По- друге, застосувати правило ERM по відношенню до класу кінцевої { } на прикладах перевірки. $\hat{h}_1,\ldots,\hat{h}_k$ $\alpha m$

Охарактеризуйте сценарії, в яких перший метод кращий за другий і навпаки.

Зображення відмови .

machine-learning self-study cross-validation

— SMA.D
джерело

Це цікава вправа, але я не погоджуюся з лейблом. Я думаю, що перехресне підтвердження робить свою справу ідеально. Як тангенціаліст, було б дійсно кращим, якби ви ввели вправу і цитували її, на відміну від прикріплення зображення. Зображення недоступне для користувачів із порушеннями зору.

— Меттью Друрі

Одним з можливих недоліків використання перехресної перевірки може бути надмірна відповідність (як у випадку, якщо не виходить одна перехресна перевірка). По суті, використовуючи методи перехресної перевірки, ми налаштовуємо параметри моделі на наборі даних перевірки (а не на тестовому наборі даних). Але іноді ця настройка може бути занадто багатою, що призводить до можливого перевиконання, коли класифікатор тестується на тестовому наборі.

— Upendra Pratap Singh

Що тут означає «паритет»?

— shadowtalker

@shadowtalker Я думаю, що це означає модуль підсумовування 2.

— SMA.D

Чи відрізняєте ви (повторну) перехресну перевірку та завантажувальну передачу?

— usεr11852

Повідомлення для дому:

вправа повинна навчити вас, що іноді (залежно від вашої галузі: часто або навіть майже завжди) краще не робити оптимізацію / налаштування моделі, що керується даними.
Також є ситуації, коли перехресне підтвердження не є найкращим вибором серед різних варіантів перевірки , але ці міркування не є актуальними в контексті вашої вправи тут.
І не перевірка (перевірка, тестування) вашої моделі ніколи не є вдалим вибором.

На жаль, текст, який ви цитуєте, змінює дві речі між підходом 1 і 2:

Підхід 2 здійснює перехресну перевірку та вибір / налаштування / оптимізацію моделей, керованих даними
Підхід 1 не використовує перехресну перевірку, а також вибір / налаштування / оптимізацію моделі, керовану даними.
Підхід 3 крос-валідації без вибору / налаштування / оптимізації моделі, керованої даними, цілком здійсненний (AMD IMHO призведе до більш глибокого розуміння) в контексті, що обговорюється тут
Підхід 4, також не можлива перехресна перевірка, але вибір даних / налаштування / оптимізація, керована даними, також можлива, але більш складна для побудови.

IMHO, крос-валідація та керована даними оптимізація - це два абсолютно різних (і значною мірою незалежних) рішення при створенні вашої стратегії моделювання. Тільки з'єднання є те , що ви можете використовувати оцінки крос - перевірки в якості цільового функціоналу для оптимізації. Але існують інші цільові функціонали, готові до використання, є й інші способи перехресних оцінок (важливо, ви можете використовувати їх для перевірки вашої моделі, також перевірки або тестування)

На жаль, термінологія машинного навчання - це зараз IMHO безлад, який передбачає помилкові зв’язки / причини / залежності тут.

Якщо ви подивитесь на підхід 3 (перехресне підтвердження не для оптимізації, а для вимірювання продуктивності моделі), ви виявите, що перехресне підтвердження "рішення" порівняно з навчанням для всього набору даних є помилковою дихотомією в цьому контексті. Під час використання перехресної перевірки для вимірювання продуктивності класифікатора цифра перехресної перевірки достовірності використовується як оцінка для моделі, навченої для всього набору даних. Тобто підхід 3 включає підхід 1.
$p$ параметри / коефіцієнти моделі, але те, що робить оптимізація, - це оцінка подальших параметрів, так званих гіперпараметрів. Якщо описати процес підгонки та оптимізації / налаштування моделі як пошук параметрів моделі, то ця оптимізація гіперпараметрів означає, що розглядається значно більший простір пошуку. Іншими словами, у підході 1 (та 3) ви обмежуєте простір пошуку, вказуючи ці гіперпараметри. Ваш набір даних у реальному світі може бути достатньо великим (містити достатню кількість інформації), щоб дозволити вмістити його в обмеженому просторі пошуку, але недостатньо великий, щоб добре фіксувати всі параметри у великому просторі пошуку підходів 2 (і 4).

Насправді в моїй галузі мені дуже часто доводиться стикатися з наборами даних, які занадто малі, щоб можна було думати про оптимізацію, керовану даними. Отже, що робити замість цього: я використовую свої знання про домен щодо процесів генерування даних та даних, щоб визначити, яка модель добре відповідає фізичній природі даних та застосувань. І всередині них мені ще доводиться обмежувати складність своєї моделі.

— cbeleites незадоволений SX
джерело

Гарна відповідь. Я якось сподівався, що ти сприятимеш цій темі. Очевидний +1

— usεr11852

Дякую за інформативну та корисну відповідь. Що я дізнався з вашої відповіді, це те, що ми можемо вибрати підхід 2, коли у нас є невеликі набори даних не через валідацію, а через вибір моделі. Я прав? Чи використовує вибір моделі для невеликих наборів даних якимось чином недостатнім?

— SMA.D

Інше питання полягає в тому, що розмір класу гіпотез у вправі однаковий як для підходу 1, так і 2. Наскільки обширний простір пошуку збільшується в цьому випадку для підходу 2?

— SMA.D

Що ж, якщо вибір є в 2, а не в 1, то простір пошуку в 2 більший. Якщо пошуковий простір у 2 не більший, то в підході насправді немає чого вибрати, моя відповідь та інтерпретація того, що означає підхід 2, викликається терміном "вибір моделі за допомогою перевірки". Якщо контекст все ще є вправою "коли перехресна перевірка провалюється" перед тим, про який йдеться, тоді книга може означати те, що я назвав підходом 3 вище, тобто не включається вибір моделі. Але в цьому випадку вибору моделі слів насправді не повинно бути там. Я не можу судити, наскільки це ймовірно ..

— cbeleites незадоволений SX

... це те, що я не знаю, що йдеться в книзі про вибір моделі, а також про те, що їх правило ERM (у моєму словнику ERM розширюється на управління ризиками для підприємств ...). Однак моя відповідь справедлива незалежно від алгоритму моделювання.

— cbeleites незадоволений SX