Третій спосіб - правильний. Точно чому детально висвітлюється в «Елементах статистичного навчання» , дивіться розділ «Неправильний і правильний шлях до перехресної перевірки», а також в заключній главі « Навчання з даних» на прикладі фондового ринку.
По суті, процедури 1 і 2 витікають інформацію про відповідь, або про майбутнє, з ваших даних про витримку, встановлених на навчання або оцінку, вашої моделі. Це може викликати значну упередженість оптимізму в оцінці вашої моделі.
Ідея валідації моделі полягає в тому, щоб імітувати ситуацію, в якій ви опинилися б, коли ваша модель приймає виробничі рішення, коли у вас немає доступу до справжньої відповіді. Наслідком цього є те, що ви не можете використовувати відповідь у тестовому наборі ні для чого, крім порівняння з передбачуваними значеннями.
Ще один спосіб наблизитись до цього - уявити, що ви маєте доступ до однієї точки даних одночасно з вашої передачі (звичайна ситуація для виробничих моделей). Все, чого ви не можете зробити за цим припущенням, вам слід дуже підозріло. Зрозуміло, одне, що ви не можете зробити - це об'єднати всі нові точки даних минулого та майбутнього, щоб нормалізувати виробничий потік даних - тому те саме для перевірки моделі недійсне.
Вам не доведеться турбуватися про те, що середнє значення тестового набору не дорівнює нулю, це буде краща ситуація, ніж зміщення ваших оцінок ефективності витримки. Хоча, звичайно, якщо тест справді складається з того самого основного розподілу, що і ваш потяг (важливе припущення в статистичному навчанні), сказане значення повинно вийти приблизно рівним нулю.
R
? Дивіться це запитання: stackoverflow.com/questions/49260862/…