Я намагаюся використовувати регресію РФ для прогнозування ефективності роботи паперового комбінату.
Я маю дані за хвилиною за хвилиною для вхідних даних (швидкість і кількість деревної маси, що надходить в т. Д.), А також про продуктивність машини (виготовлений папір, потужність, намальована машиною), і я хочу зробити прогнози 10 хвилин вперед щодо змінних показників продуктивності.
У мене є 12 місяців даних, тому розділили їх на 11 місяців для навчального набору та останній місяць для тестування.
Поки я створив 10 нових функцій, які мають відсталі значення на 1-10 хвилин для кожної змінної продуктивності, і використовував їх, а також вхідні дані для прогнозування. Продуктивність на тестовому наборі була досить хорошою (система досить передбачувана), але я переживаю, що мені щось не вистачає в моєму підході.
Наприклад, у цій роботі автори констатують свій підхід до тестування прогнозної здатності їх випадкової лісової моделі:
Моделювання продовжується ітераційним додаванням нового тижня даних, підготовкою нової моделі на основі оновлених даних та прогнозуванням кількості спалахів на наступний тиждень
Чим це відрізняється від використання "пізніших" даних у часових рядах як тестування? Чи слід перевіряти мою РФ регресійну модель таким підходом, а також набором даних тестування? Крім того, чи дійсний такий «авторегресивний» підхід до випадкової регресії лісу для часових рядів, і чи потрібно мені навіть створити цю кількість відсталих змінних, якщо мене цікавить прогноз на 10 хвилин у майбутньому?