Варіант 1 - правильний. Ви можете додати набір даних перевірки для оновлення параметрів вашої моделі.
Це відповідь. Тепер давайте обговоримо це. Той факт, що ви зробили ваш варіант 1. вище, зрозуміліше, якщо ви зробили перехресну перевірку завантаження на k-кратному рівні (і ви повинні це зробити - це не ясно з вашого запитання).
У 5-кратній перехресній валідації ви поділите отримані вами дані на 5 випадкових наборів однакового розміру. Давайте назвемо їх A, B, C, D та E. Потім ви дізнаєтесь параметри вашої моделі (самої моделі) у 4-х наборах, скажімо, A, B, C і D, і протестуйте її чи підтвердіть п'ята модель Е. (Це ви зробили). Але потім ви вибираєте інший набір як тест / перевірку (скажімо D) і навчаєтесь використовувати інші 4 (A, B, C і E). Перевірте це на D, повторіть.
Помилка вашої прогнозної моделі є середньою помилкою 5 тестів - і ви маєте певне розуміння того, як залежність помилки прогнозування залежить від наборів навчання та тестування. У кращому випадку всі 5 заходів помилок схожі, і ви можете бути впевнені, що ваша модель буде працювати на цьому рівні в майбутньому.
Але яка модель ?? Для кожного набору навчальних наборів у вас буде інший параметр для моделі. Навчання з A, B, C, D породжує набір параметрів P1, навчання з A, B, C, E, набір параметрів P2, аж до P5. Жоден з них не є вашою моделлю.
Тестоване тестування - очікувана помилка процедури побудови моделей , процедури, якої ви дотримувалися, коли навчальний набір був A, B, C, D і коли це був A, B, C, E тощо. Чи ця процедура генерує модель із цією очікуваною помилкою.
То яка фінальна модель? Це застосування процедури у всіх наявних у вас даних (A, B, C, D і E). Нова модель з набором параметрів P0, яку ви ніколи не генерували, у вас немає даних для її тестування (оскільки ви "використовували" всі дані для визначення параметрів P0), і все ж ви обгрунтовано сподівались, що вона буде працювати в майбутньому дані, як і інші моделі (P1, P2 ...), побудовані за тією ж процедурою.
Що робити, якщо ви не здійснили перехресну перевірку чи завантажувальний інструмент (bootstrap пояснити дещо складніше - я не виходжу з цього обговорення)? Що робити, якщо ви виконали лише один розкол навчання / перевірки та один показник помилок. Тоді аргумент 2. може бути дещо правильним, але у вас є більша проблема - у вас є лише одна міра помилки моделі, і ви не знаєте, наскільки ця помилка залежить від даних, що використовуються для її перевірки. Можливо, на щастя, ваш набір 20% перевірки було особливо передбачити. Не зробивши декількох заходів помилок, буде дуже ризиковано припустити, що очікувана швидкість помилок у вашій прогнозній моделі залишиться однаковою для майбутніх даних.
Який "більший ризик"? Припустити, що ця помилка залишиться в основному однаковою для майбутніх даних, або припустити, що додавання більше даних для вивчення вашої моделі якимось чином "накрутить" модель і збільшить її рівень помилок у майбутньому? Я насправді не знаю, як на це відповісти, але мені було б підозріло щодо моделей, які погіршуються з більшою кількістю даних….