Чи потрібно повторно переміщувати дані?


9

У нас є безліч біологічних зразків, які було досить дорого отримати. Ми ставимо ці зразки через серію тестів для отримання даних, які використовуються для побудови прогнозної моделі. Для цього ми розділили зразки на навчальні (70%) та тестові (30%) набори. Ми успішно створили модель і застосували її на тестовому наборі, щоб виявити, що продуктивність була "менш оптимальною". Зараз експерименталісти хочуть покращити біологічні випробування, щоб створити кращу модель. За умови, що ми не зможемо отримати нові зразки, ви б запропонували нам повторно перемішати зразки, щоб створити нові набори для навчання та перевірки чи дотримуватися оригінального поділу. (Ми не маємо жодних ознак того, що поділ було проблематичним).


1
Як ви розділили дані? Випадково вручну чи іншим методом? Хоча, по правді кажучи, частина про "успішно створену модель" є НАМОЩО більшою частиною питання. Перш ніж робити дорогі речі, ви повинні дізнатися, чи використовуєте ви відповідний тип моделі, чи переоцінили ви дані ваших тренувань і чи є у вас відповідні дані для того, що ви намагаєтеся передбачити.
Уейн

До речі, я забув увімкнути режим цинізму перед "успішно створеною моделлю"
DavidDong

Відповіді:


12

Оскільки ви вже використовуєте зразок проведення, я б сказав, що ви повинні зберігати його та будувати свої нові моделі на одному навчальному зразку, щоб усі моделі враховували однакові відносини між функціями. Крім того, якщо ви здійснюєте вибір функції, зразки повинні бути залишені перед будь-яким з цих етапів фільтрації; тобто вибір функції повинен бути включений у цикл перехресної перевірки.

Слід зазначити, що для вибору моделі існують більш потужні методи, ніж розділення 0,67 / 0,33, а саме перехресне підтвердження k-кратного або відключення. Див , наприклад , Елементи статистичного навчання (§7.10, стор. 241-248), www.modelselection.org або Огляд процедур перехресної перевірки для вибору моделі по Arlot і Celisse (потрібно більш просунутий математичний фон).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.