Перехресне підтвердження, включаючи навчання, валідацію та тестування. Для чого нам потрібні три підмножини?


29

У мене є питання щодо перехресної перевірки. Я в середині курсу машинного навчання на Cursera. Одна з тем про перехресне підтвердження. Мені було важко слідувати. Я точно знаю, навіщо нам потрібне резюме, тому що ми хочемо, щоб наші моделі добре працювали над майбутніми (невідомими) даними, а резюме не дозволяє переробляти. Однак сам процес заплутаний.

Я зрозумів, що я розділив дані на 3 підмножини: навчання, валідація та тест. Поїзд і валідація - це знайти оптимальну складність моделі. Що я не розумію, це третій підмножина. Я розумію, що я приймаю ряд функцій для моделі, треную її та перевіряю її на підмножину Validation і шукаю функцію мінімальних витрат, коли я змінюю структуру. Коли я знайшов це, я тестував модель на тему підмножини. Якщо я вже знайшов функцію мінімальної вартості на підмножині валідації, навіщо мені потрібно ще раз тестувати її на підмножині тестування ???

Може хтось, будь ласка, уточнив це для мене?

Дякую


Ви знайдете статтю та обговорення в [1], які не стосуються вашого питання. З пам'яті він згадує три підмножини: перший сформував модель, другий для оцінки її параметрів і третій для перевірки її за прогнозом. [1] Чатфілд, C. Невизначеність моделі, видобуток даних та статистичні умовиводи (з обговоренням) Журнал Королівського статистичного товариства. Серія A (Статистика в суспільстві), 1995, 158, 419-466
Зимує


Ура! Нитка за цим посиланням також є хорошим джерелом для розуміння цього :)
Celdor

Відповіді:


39
  • Набір тренувань використовується для вибору оптимальних параметрів для даної моделі. Зауважте, що оцінювання деякого заданого набору параметрів за допомогою навчального набору повинно дати вам неупереджену оцінку вашої функції витрат - саме акт вибору параметрів оптимізує оцінку вашої функції витрат на основі навчального набору, що зміщує оцінку, яку вони надають . Вибиралися параметри, які найкраще відповідають навчальному набору; отже, очевидне виконання цих параметрів, оцінене на тренувальному наборі, буде надмірно оптимістичним.
  • Навчившись, використовуючи навчальний набір, набір перевірки використовується для вибору найкращої моделі. Знову зауважте, що оцінювання будь-якої заданої моделі за допомогою набору валідації повинно дати вам репрезентативну оцінку функції витрат - саме вибір вибору тієї моделі, яка найкраще працює на валідаційній множині, упереджує оцінку, яку вони надають. Вибрана модель, яка найкраще працює у наборі перевірки; отже, очевидна ефективність цієї моделі, як оцінено на наборі перевірки, буде надмірно оптимістичною.
  • Після навчений кожної моделі , використовуючи навчальний набір, і вибрали кращу модель з допомогою перевірки набору, то набір тестів говорить вам , наскільки добре ваш остаточний вибір моделі. Це дає вам неупереджену оцінку фактичної продуктивності, яку ви отримаєте під час виконання, що важливо знати з багатьох причин. Ви не можете використовувати набір тренувань для цього, оскільки параметри упереджені до нього. І ви не можете використовувати набір перевірки для цього, тому що сама модель упереджена до цих. Отже, потреба в третьому наборі.

Я зараз це бачу. Дякую. Я не замислювався над тим, що мені знадобиться ще одна підмножина, щоб знайти об'єктивну продуктивність з точки зору структури моделі. Ура :) Це дуже хороше пояснення.
Celdor

Отже, чи означає це, що підсумковий тестовий набір не грає ніякої ролі ні в оптимізації моделі, ні у виборі найкращої моделі?
Anmol Singh Jaggi

1
Ні. Насправді, його слід використовувати лише для оцінки очікуваних показників. Отже, якщо результат тестування вам не сподобається, вам слід справді уникати прагнення налаштувати вашу модель, щоб оптимізувати результат тесту, оскільки ваша модель знову буде упереджена.
Іцен де Бур

13

Якщо я вже знайшов функцію мінімальної вартості на підмножині перевірки, навіщо мені потрібно ще раз тестувати її на підмножині тестування

Через випадкову помилку: зазвичай у вас є лише обмежена кількість випадків.

Оптимізація ефективності перевірки (внутрішнього тесту) означає, що ви можете бути придатними до цього внутрішнього тестового набору. Внутрішній тестовий набір сприяє оцінці кінцевої моделі і, таким чином, не залежить від моделі.

Це означає, що вам потрібно мати інший (зовнішній) тестовий набір, який не залежить від усієї процедури моделювання (включаючи всі процеси оптимізації та керування даними попередньої обробки або вибору моделі), якщо ви хочете оцінити властивості узагальнення.

Я рекомендую зробити моделювання та порівняти три різні оцінки помилок, які ви можете мати

  • resubstitution: прогнозування поїзда набір
    ЗАХОДИ Досконалість-о-нападі
  • внутрішній тест (у вашій номенклатурі: валідація): встановлено якість, яку оптимізатор вважає досягнутою
  • зовнішній тестовий набір: похибка узагальнення, незалежна від навчання моделі.

У моделюванні ви можете легко порівняти їх також із правильним, великим, незалежно створеним тестовим набором. Якщо налаштування правильне, зовнішній тест повинен бути неупередженим (wrt сурогатної моделі, яку він оцінює, а не wrt "остаточної" моделі, побудованої на цілому наборі даних). Внутрішній тест, як правило, оптимістично упереджений, а повторна заміна ще більш оптимістично упереджена.

У моєму полі внутрішній тест легко недооцінить похибку узагальнення в коефіцієнт 2 - 5 (набагато більше для агресивних схем оптимізації).


Примітка: номенклатура наборів не є універсальною. У моєму полі (аналітична хімія) валідація зазвичай означатиме доказ ефективності остаточної процедури - таким чином, більше, ніж робить ваш тестовий набір, ніж те, що робить ваш набір перевірки.

Тому я вважаю за краще говорити про внутрішній і зовнішній тестові набори, або про тестовий набір для оптимізації (= внутрішній тестовий набір), і тоді набір валідації означатиме зовнішній тестовий набір.


2

Під час навчання моделі потрібно вибрати мета-параметри для моделі (наприклад, параметр регуляризації) або навіть вибрати з декількох моделей. У цьому випадку підмножина перевірки використовується для вибору параметрів, але тестова підмножина для остаточної оцінки прогнозу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.