У деяких лекціях та навчальних посібниках, які я бачив, вони пропонують розділити ваші дані на три частини: навчання, перевірку та тест. Але незрозуміло, як слід використовувати тестовий набір даних, ні наскільки цей підхід кращий за перехресну перевірку для всього набору даних.
Скажімо, ми зберегли 20% наших даних у вигляді тестового набору. Потім ми беремо решту, розбиваємо її на k складок і, використовуючи перехресну перевірку, знаходимо модель, яка найкраще прогнозує невідомі дані з цього набору даних. Скажімо, найкраща модель, яку ми знайшли, дає нам 75% точності.
Різні навчальні посібники та безліч питань на різних веб-сайтах із питань і відповідей стверджують, що тепер ми можемо перевірити нашу модель на збереженому (тестовому) наборі даних. Але я все ще не можу зрозуміти, як саме це робиться, а також який сенс у цьому.
Скажімо, ми отримали точність 70% на тестовому наборі даних. То що робити далі? Ми спробуємо іншу модель, а потім іншу, поки не отримаємо високу оцінку на нашому тестовому наборі даних? Але в цьому випадку насправді виглядає так, що ми просто знайдемо модель, яка відповідає нашому обмеженому (лише 20%) тестовому набору . Це не означає, що ми знайдемо модель, яка найкраща в цілому.
Крім того, як ми можемо розглядати цю оцінку як загальну оцінку моделі, якщо вона розраховується лише на обмеженому наборі даних? Якщо цей показник низький, можливо, нам не пощастило і вибрали «погані» дані тесту.
З іншого боку, якщо ми використовуватимемо всі дані, які ми маємо, а потім виберемо модель за допомогою перехресної перевірки k-кратної, ми знайдемо модель, яка найкраще прогнозує невідомі дані з усього набору даних, які ми маємо.