Якщо я вже знайшов функцію мінімальної вартості на підмножині перевірки, навіщо мені потрібно ще раз тестувати її на підмножині тестування
Через випадкову помилку: зазвичай у вас є лише обмежена кількість випадків.
Оптимізація ефективності перевірки (внутрішнього тесту) означає, що ви можете бути придатними до цього внутрішнього тестового набору. Внутрішній тестовий набір сприяє оцінці кінцевої моделі і, таким чином, не залежить від моделі.
Це означає, що вам потрібно мати інший (зовнішній) тестовий набір, який не залежить від усієї процедури моделювання (включаючи всі процеси оптимізації та керування даними попередньої обробки або вибору моделі), якщо ви хочете оцінити властивості узагальнення.
Я рекомендую зробити моделювання та порівняти три різні оцінки помилок, які ви можете мати
- resubstitution: прогнозування поїзда набір
ЗАХОДИ Досконалість-о-нападі
- внутрішній тест (у вашій номенклатурі: валідація): встановлено якість, яку оптимізатор вважає досягнутою
- зовнішній тестовий набір: похибка узагальнення, незалежна від навчання моделі.
У моделюванні ви можете легко порівняти їх також із правильним, великим, незалежно створеним тестовим набором. Якщо налаштування правильне, зовнішній тест повинен бути неупередженим (wrt сурогатної моделі, яку він оцінює, а не wrt "остаточної" моделі, побудованої на цілому наборі даних). Внутрішній тест, як правило, оптимістично упереджений, а повторна заміна ще більш оптимістично упереджена.
У моєму полі внутрішній тест легко недооцінить похибку узагальнення в коефіцієнт 2 - 5 (набагато більше для агресивних схем оптимізації).
Примітка: номенклатура наборів не є універсальною. У моєму полі (аналітична хімія) валідація зазвичай означатиме доказ ефективності остаточної процедури - таким чином, більше, ніж робить ваш тестовий набір, ніж те, що робить ваш набір перевірки.
Тому я вважаю за краще говорити про внутрішній і зовнішній тестові набори, або про тестовий набір для оптимізації (= внутрішній тестовий набір), і тоді набір валідації означатиме зовнішній тестовий набір.