Чи слід навчати остаточну модель, готову до виробництва, за повними даними чи просто на навчальному наборі?


23

Припустимо, я тренував кілька моделей на навчальному наборі, вибирав найкращу, використовуючи набір перехресних перевірок і вимірював продуктивність на тестовому наборі. Тож тепер у мене є одна остаточна найкраща модель. Чи повинен я перекваліфікувати його на всіх своїх наявних даних або на суднових рішеннях, що навчаються лише на навчальному наборі? Якщо останні, то чому?

ОНОВЛЕННЯ: Як зазначав @ P.Windridge, доставка перекваліфікованої моделі в основному означає доставку моделі без валідації. Але ми можемо повідомити про ефективність тестових наборів і після цього перевчити модель за повними даними, справедливо очікуючи, що ефективність буде кращою - адже ми використовуємо нашу найкращу модель плюс більше даних. Які проблеми можуть виникнути внаслідок такої методології?


Ви працюєте в умовах зовнішнього регулювання? (тобто, можливо, ви повинні поставити валідовану модель, і ваше питання є лише гіпотетичним, але все-таки варто обговорити :)). Редагувати: добре, я бачу, що ви відредагували свою публікацію.
P.Windridge

Чи вважаєте ви, що ваші тестові дані є репрезентативними для населення / охоплюють частину населення, яка не є у вибірці розробників? Чи дефіцит вашого оригінального зразка розробки?
P.Windridge

@ P.Windridge добре, моє запитання просто гіпотетичне. Щодо вашого другого коментаря, я вважаю, що ніхто не повинен сподіватися, що інженер підготує хорошу модель, надаючи йому непредставні дані.
Юрій

1
Я не уявляю багатьох ситуацій, коли ти зможеш поставити модель без валідації. Я вважаю за краще зменшити розмір тестового зразка (за умови, що він ще досить великий, щоб перевірити його!). Можливо, цікавіше обговорення стосується плюсів / мінусів / вибору / моделі на основі / всіх / даних, а потім її навчання за допомогою підпроби, а потім перевірки на решту.
P.Windridge

1
Подібне запитання = stats.stackexchange.com/questions/174026/… , хоча я думаю, що це могло б використовувати більше обговорень
P.Windridge

Відповіді:


15

Ви майже завжди отримаєте кращу модель після поправки на весь зразок. Але, як казали інші, у вас немає підтвердження. Це є основним недоліком у підході до розподілу даних. Це не тільки розбиття даних, втрачена можливість безпосередньо моделювати відмінності вибірки в загальній моделі, але це нестабільно, якщо весь ваш вибір не може перевищувати 15 000 предметів. Ось чому 100 повторень 10-кратної перехресної перевірки необхідно (залежно від розміру вибірки) для досягнення точності та стабільності, і чому завантажувальний механізм для сильної внутрішньої перевірки ще кращий. Завантажувальна програма також розкриває, наскільки складним і довільним є завдання вибору функцій.

Я описав проблеми з «зовнішньою» валідацією більш докладно в розділі « Біостатистика в біомедичних дослідженнях», розділ 10.11.


Термінологія в моїй галузі (аналітична хімія) розглядає будь-яке розбиття даних, які ви робите на (до) початку навчання, дуже внутрішньою валідацією. Зовнішня перевірка розпочнеться десь між проведенням спеціального дослідження валідації та кінцевими випробуваннями.
cbeleites підтримує Моніку

0

Вам не потрібно повторно тренуватися. Коли ви повідомляєте про свої результати, ви завжди повідомляєте результати тестових даних, оскільки вони дають набагато краще розуміння. За допомогою тестових наборів даних ми можемо більш точно побачити, наскільки добре модель може працювати на даних, що не мають вибірки.


4
Ми можемо повідомити про ефективність тестових наборів і після цього перевчити модель на повні дані, справедливо очікуючи, що продуктивність буде кращою - адже ми використовуємо найкращий режим плюс більше даних. Чи є недолік у моїх міркуваннях?
Юрій

Добре, якщо після тестування ви збираєте більше даних, тоді ви можете повторно розділити дані, переучити їх знову, потім повторно протестувати, а потім повідомити про результат тесту при повторному тесті.
Умар

6
Не оцінюючи по всьому зразку, ви позбавляєте можливості вищої ефективності. Це не виправдано. Я також згоден з коментарем Юрія вище.
Річард Харді

@ RichardHardy, що не так у моєму коментарі?
Умар

Це прописано в моєму останньому коментарі. Не використовуючи всіх даних для оцінки моделі, ви отримуєте найвищу доступну ефективність. Навіщо це робити?
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.