Випадкова регресія Лісу для прогнозування часових рядів


10

Я намагаюся використовувати регресію РФ для прогнозування ефективності роботи паперового комбінату.

Я маю дані за хвилиною за хвилиною для вхідних даних (швидкість і кількість деревної маси, що надходить в т. Д.), А також про продуктивність машини (виготовлений папір, потужність, намальована машиною), і я хочу зробити прогнози 10 хвилин вперед щодо змінних показників продуктивності.

У мене є 12 місяців даних, тому розділили їх на 11 місяців для навчального набору та останній місяць для тестування.

Поки я створив 10 нових функцій, які мають відсталі значення на 1-10 хвилин для кожної змінної продуктивності, і використовував їх, а також вхідні дані для прогнозування. Продуктивність на тестовому наборі була досить хорошою (система досить передбачувана), але я переживаю, що мені щось не вистачає в моєму підході.

Наприклад, у цій роботі автори констатують свій підхід до тестування прогнозної здатності їх випадкової лісової моделі:

Моделювання продовжується ітераційним додаванням нового тижня даних, підготовкою нової моделі на основі оновлених даних та прогнозуванням кількості спалахів на наступний тиждень

Чим це відрізняється від використання "пізніших" даних у часових рядах як тестування? Чи слід перевіряти мою РФ регресійну модель таким підходом, а також набором даних тестування? Крім того, чи дійсний такий «авторегресивний» підхід до випадкової регресії лісу для часових рядів, і чи потрібно мені навіть створити цю кількість відсталих змінних, якщо мене цікавить прогноз на 10 хвилин у майбутньому?


2
РЧ не розроблені та не чітко включають часові міркування. Враховуючи це, навіщо їх взагалі використовувати для цього аналізу? Існує багато методологій часових рядів. Вибрати один.
Мистер Хантер

2
@DJohnson Я думав, що спробую імітувати підхід у роботі: спробувати RF та порівняти його з ARIMA. Ви припускаєте, що це не варто часу і просто використовувати ARIMA?
KRS-fun

4
@DJohnson, механіка авторегресивних моделей багато в чому схожа на регресійні моделі поперечного перерізу. Після того, як побудовані функції, що відстають, чому б не використати радіочастотні сигнали як у налаштуваннях поперечного перерізу? Я думаю, що справедливо спробувати їх. Але ви праві, що інші методи є більш популярними у часових рядах, і ОП може також отримати користь від їх вивчення.
Річард Харді

1
На мою думку, радіочастотні сигнали - це як молоток, де все стає цвяхом. З даними, описаними в ОП, моїм першим вибором будуть дані на панелі або об'єднана модель, а не ARIMA.
Майк Хантер

5
Я натрапив на це лише зараз, і прочитав папір, про яку згадували пару днів тому. Я порівнюю випадковий ліс і LSTM для багатовимірного прогнозування часових рядів. Цікаво, що LSTM краще, якщо включати менший час у дані тренувань, але, як я додаю за більше років даних, результати обох методів збігаються до справжніх результатів. Я думаю, що це здебільшого тому, що функції дають достатньо інформації для подолання тимчасової складової. У всякому разі, думав, що це цікаво. Крім того, я ніколи не бачив, щоб ARIMA працював добре, за винятком дуже очевидних сезонних випадків, а багатоваріантна ARIMA - це ...
Гоббс

Відповіді:


6

Чим це відрізняється від використання "пізніших" даних у часових рядах як тестування?

Підхід, який ви цитуєте, називається "прогнозуванням походження" прогнозування: початок, з якого ми прогнозуємо, "перекинувся вперед", а дані тренінгу оновлюються нещодавно доступною інформацією. Більш простий підхід - це "прогнозування одного походження", де ми вибираємо одне походження.

Перевага роликового прогнозування походження полягає в тому, що воно імітує систему прогнозування з часом . При одному прогнозуванні походження ми можемо випадково вибрати джерело, де наша система працює дуже добре (або дуже погано), що може дати нам неправильне уявлення про роботу нашої системи.

Одним з недоліків прогнозування походження колінчастого походження є його більш висока потреба в даних. Якщо ми хочемо спрогнозувати 10 кроків, принаймні 50 історичних спостережень, то ми можемо зробити це однопотокове, маючи загалом 60 точок даних. Але якщо ми хочемо зробити 10 перекриваючих джерел кочення, то нам потрібно 70 точок даних.

Інший недолік - це, звичайно, його більш висока складність.

Зайве говорити, що ви також не повинні використовувати "пізніші" дані для прогнозування походження, але лише використовуйте дані до початку, який ви використовуєте в кожній ітерації.

Чи слід перевіряти мою РФ регресійну модель таким підходом, а також набором даних тестування?

Якщо у вас є достатня кількість даних, поступова оцінка походження завжди буде викликати у мене більше довіри, ніж одна оцінка походження, тому що вона, сподіваємось, оцінить вплив походження.

Крім того, чи дійсний такий «авторегресивний» підхід до випадкової регресії лісу для часових рядів, і чи потрібно мені навіть створити цю кількість відсталих змінних, якщо мене цікавить прогноз на 10 хвилин у майбутньому?

Так, прогнозування покоління проти одиничного походження є дійсним для будь-яких прогнозних вправ. Це не залежить від того, використовуєте ви випадкові ліси, ARIMA чи щось інше.

Чи потрібні вам ваші змінні змінні - це те, що ми не можемо вам порадити. Можливо, найкраще поговорити з експертом з питань теми, який також може запропонувати інші матеріали. Просто спробуйте ваш RF з відсталими входами проти без. А також порівняйте зі стандартними орієнтирами, такими як ARIMA або ETS, або навіть більш простими методами, які можна напрочуд важко перемогти .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.