Чи завжди хороша ідея тренуватися з повним набором даних після перехресної перевірки ? Інакше кажучи, чи нормально тренуватися з усіма зразками в моєму наборі даних і не можете перевірити, чи відповідає саме цей примір ?
Деякі відомості про проблему:
Скажіть, у мене є сімейство моделей, параметризованих . Скажіть також, що у мене є набір N точок даних і що я вибираю модель з k-кратною перехресною валідацією, щоб вибрати модель, яка найкраще узагальнює дані.
Для вибору моделі я можу здійснити пошук (наприклад, пошук по сітці) на , наприклад, запустивши перехресну перевірку k-кратної для кожного кандидата. У кожній складці в перехресній валідації я закінчую вивчену модель β α .
Суть перехресної валідації полягає в тому, що для кожної з цих складок я можу перевірити, чи вивчена модель переоцінила, перевіривши її на "невидимі дані". Залежно від результатів, я міг вибрати модель засвоєну для параметрів → α найкраща, яка найкраще узагальнена під час перехресної перевірки в пошуку в сітці.
на будь-які небачені дані. Який правильний спосіб обдумати цю проблему?