Я працюю над розробкою моделі для прогнозування загальних продажів товару. У мене є близько півтора року бронювання даних, тому я міг зробити стандартний аналіз часових рядів. Однак у мене також багато даних про кожну "можливість" (потенційний продаж), яка була або закрита, або втрачена. "Можливості" просуваються по етапах трубопроводу, поки вони не будуть закриті або втрачені; вони також мають пов’язані дані про потенційного покупця, особу продажу, історію взаємодії, галузь, передбачуваний розмір бронювання тощо.
Моя мета - врешті-решт передбачити загальну кількість бронювань, але я хочу пояснити всю цю інформацію про поточні "можливості", які є справжньою "першопричиною" бронювання.
Одна з моїх ідей - це використання двох різних моделей серійно наступним чином:
Скористайтеся історичними "можливостями", щоб побудувати модель, яка передбачає бронювання, що випливає з індивідуальної "можливості" (я б, напевно, використовував випадкові ліси або навіть звичайну стару лінійну регресію для цього кроку).
Використовуйте модель від 1, щоб передбачити прогнозовані бронювання всіх "можливостей", які наразі знаходяться на стадії розробки, а потім підсумовуйте ці підрахунки, виходячи з місяця, коли була створена кожна "можливість".
Використовуйте модель часових рядів (можливо, ARIMA?), Використовуючи дані за піврічні дані щомісячних історичних часових рядів І прогнозовану (використовуючи модель 1) загальну кількість бронювань для всіх "можливостей", створених у цьому місяці.
Зважаючи на те, що в тих можливостях, що перетворюються на фактичні бронювання, буде відставати, але модель часових рядів повинна мати можливість вирішити відставання.
Як це звучить? Я багато читав на часових рядах і прогнозував продажі, і з того, що можу сказати, це дещо унікальний підхід. Тому я дуже вдячний за будь-які відгуки!