Розбиття даних часових рядів на набори поїздів / тестів / перевірок


12

Який найкращий спосіб розділити дані часових рядів на набори поїздів / випробувань / валідації, де набір перевірки буде використовуватися для налаштування гіперпараметрів?

У нас є щоденні дані про продажі на 3 роки, і ми плануємо використовувати 2015-2016 роки в якості навчальних даних, а потім випадковим чином вибирати 10 тижнів із даних 2017 року, які будуть використані як набір перевірки, і ще 10 тижнів з даних 2017 року для тестовий набір. Тоді ми зробимо прогулянку вперед кожного дня в наборі тестування та перевірки.

Відповіді:


8

Вам слід скористатися розбиттям за часом, щоб уникнути перекосу вперед. Навчайте / перевіряйте / перевіряйте в цьому порядку вчасно.

Тестовий набір повинен бути останньою частиною даних. Вам потрібно імітувати ситуацію у виробничому середовищі, де після навчання моделі ви оцінюєте дані, що надходять після часу створення моделі. Таким чином, випадкова вибірка, яку ви використовуєте для перевірки та навчання, не є хорошою ідеєю.


5

Я думаю, що найповнішим способом використання ваших даних часових рядів для навчання / перевірки / тестування / прогнозування є такий:

введіть тут опис зображення

Чи пояснюється картина сама собою? Якщо ні, будь ласка, прокоментуйте, і я додам більше тексту ...


3

Замість створення лише одного набору тренувань / перевірки, ви можете створити більше таких наборів.

Першим навчальним набором можуть бути, скажімо, дані за 6 місяців (перший семестр 2015 року), а набір перевірок - наступні три місяці (липень-серпень 2015 року). Другий навчальний набір буде комбінацією першого набору тренінгу та валідації. Потім набір перевірки - наступні три місяці (вересень-жовтень 2015). І так далі.

Це різновид перехресної перевірки K-Fold, коли навчальні набори являють собою комбінацію попереднього набору тренувань та валідації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.