Створюючи регресійну модель, використовуючи окремі набори моделювання / валідації, чи доцільно "рециркулювати" дані валідації?

Припустимо, у мене розділився 80/20 між спостереженнями моделювання / валідації. Я встановив модель до набору даних моделювання, і мені подобається помилка, яку я бачу в наборі даних перевірки. Перш ніж я розгорнути свою модель для оцінки майбутніх спостережень, чи доцільно поєднати перевірку з даними моделювання, щоб отримати оновлені оцінки параметрів на 100% даних? Я чув дві перспективи щодо цього:

Валідація, яку я виконував, була валідацією структури моделі, тобто набору предикторів та перетворень, які я застосував. Немає сенсу залишати 20% моїх даних у таблиці, коли я можу використовувати це для оновлення своїх оцінок.
Проведена валідацією частково була валідація оцінок параметрів, які я обчислював у наборі даних моделювання. Якщо я оновлю відповідність моделі, я змінив оцінки, і більше не маю об'єктивного способу перевірити працездатність оновленої моделі.

Я завжди дотримувався аргументу №1, але останнім часом я чув, як кілька людей сперечаються №2. Я хотів побачити, що інші думають з цього приводу. Ви бачили якісь хороші дискусії в літературі чи в інших місцях на цю тему?

regression predictive-models validation

— DavidLiebeHart
джерело

Варіант 1 - правильний. Ви можете додати набір даних перевірки для оновлення параметрів вашої моделі.

Це відповідь. Тепер давайте обговоримо це. Той факт, що ви зробили ваш варіант 1. вище, зрозуміліше, якщо ви зробили перехресну перевірку завантаження на k-кратному рівні (і ви повинні це зробити - це не ясно з вашого запитання).

У 5-кратній перехресній валідації ви поділите отримані вами дані на 5 випадкових наборів однакового розміру. Давайте назвемо їх A, B, C, D та E. Потім ви дізнаєтесь параметри вашої моделі (самої моделі) у 4-х наборах, скажімо, A, B, C і D, і протестуйте її чи підтвердіть п'ята модель Е. (Це ви зробили). Але потім ви вибираєте інший набір як тест / перевірку (скажімо D) і навчаєтесь використовувати інші 4 (A, B, C і E). Перевірте це на D, повторіть.

Помилка вашої прогнозної моделі є середньою помилкою 5 тестів - і ви маєте певне розуміння того, як залежність помилки прогнозування залежить від наборів навчання та тестування. У кращому випадку всі 5 заходів помилок схожі, і ви можете бути впевнені, що ваша модель буде працювати на цьому рівні в майбутньому.

Але яка модель ?? Для кожного набору навчальних наборів у вас буде інший параметр для моделі. Навчання з A, B, C, D породжує набір параметрів P1, навчання з A, B, C, E, набір параметрів P2, аж до P5. Жоден з них не є вашою моделлю.

Тестоване тестування - очікувана помилка процедури побудови моделей , процедури, якої ви дотримувалися, коли навчальний набір був A, B, C, D і коли це був A, B, C, E тощо. Чи ця процедура генерує модель із цією очікуваною помилкою.

То яка фінальна модель? Це застосування процедури у всіх наявних у вас даних (A, B, C, D і E). Нова модель з набором параметрів P0, яку ви ніколи не генерували, у вас немає даних для її тестування (оскільки ви "використовували" всі дані для визначення параметрів P0), і все ж ви обгрунтовано сподівались, що вона буде працювати в майбутньому дані, як і інші моделі (P1, P2 ...), побудовані за тією ж процедурою.

Що робити, якщо ви не здійснили перехресну перевірку чи завантажувальний інструмент (bootstrap пояснити дещо складніше - я не виходжу з цього обговорення)? Що робити, якщо ви виконали лише один розкол навчання / перевірки та один показник помилок. Тоді аргумент 2. може бути дещо правильним, але у вас є більша проблема - у вас є лише одна міра помилки моделі, і ви не знаєте, наскільки ця помилка залежить від даних, що використовуються для її перевірки. Можливо, на щастя, ваш набір 20% перевірки було особливо передбачити. Не зробивши декількох заходів помилок, буде дуже ризиковано припустити, що очікувана швидкість помилок у вашій прогнозній моделі залишиться однаковою для майбутніх даних.

Який "більший ризик"? Припустити, що ця помилка залишиться в основному однаковою для майбутніх даних, або припустити, що додавання більше даних для вивчення вашої моделі якимось чином "накрутить" модель і збільшить її рівень помилок у майбутньому? Я насправді не знаю, як на це відповісти, але мені було б підозріло щодо моделей, які погіршуються з більшою кількістю даних….

— Жак Вайнер
джерело