Розробка відповідної моделі часових рядів для прогнозування продажів на основі даних минулого місяця


12

Я працюю в Інтернеті вже два роки поспіль, тому маю щомісячні дані про продажі вже близько двох років. На мій бізнес на кожен місяць, безумовно, впливають сезонні перепади (краще на Різдво тощо), і, мабуть, деякі інші фактори, про які я не знаю.

Для того, щоб краще прогнозувати майбутні продажі та щоб оцінити ефективність моєї торгової кампанії чи впливу нових конкурентів, я хочу мати можливість розробити відповідну модель часових рядів для екстраполяції моїх поточних даних про продаж у майбутнє. Це так, що коли я порівнюю результат свого передбачення з реальним результатом, я можу кількісно перевірити ефективність своєї торгової кампанії чи вплив конкурентів.

Моє запитання, враховуючи, що у мене є дані про продажі на 2 роки, чи все-таки я можу сформулювати для цього прогнозну модель часових рядів?

Примітка: Мене більше цікавлять фонові концепції та теорії, а не інструменти чорного поля. Якщо говорити про інструменти, у мене є математика, matlab, R, Excel, Google Spreadsheet .... ти це називаєш.


Яке програмне забезпечення ви використовуєте?
Мастеров Димитрій Вікторович

1
@ DimitriyV.Masterov, у мене є Matlab / R / Excel / Mathematica ... ти це називаєш. Насправді мене більше цікавлять поняття, а не написання самого коду
Гравітон

Відповіді:


14

Так, є способи зробити це. Люди заробляють на життя так, як це ;-)

Ви шукаєте причинно-наслідкового прогнозування . Подивіться цей безкоштовний онлайн-підручник з прогнозування, щоб дізнатися про методологію прогнозування.

У вас є дві ключові проблеми, з якими вам потрібно вирішити: сезонність (або, загалом, структура часових рядів, можливо, авторегресія), з одного боку, і причинно-наслідкові наслідки, як рекламні акції, з іншого боку. Розділ 8 у підручнику вище розглядає інформацію про часові ряди в контексті ARIMA, тоді як Глава 5 стосується причинних наслідків.

На щастя, можна вирішити обидва питання, обчисливши або так звані ARIMAX (X означає моделі "зовнішні ефекти", тобто ARIMA із зовнішніми ефектами), або регресії з помилками ARIMA. Дивіться публікацію в блозі Роб Хайндман на тему "Блокування моделі ARIMAX" . auto.arima()Функція в forecastпакеті R буде відповідати регресії з помилками ARIMA. Давайте розглянемо приклад, коли я беру стандартний набір даних із сильною тенденцією та сезонністю та додаю "акції".

library(forecast)
AirPassengers # a built-in dataset
#      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1949 112 118 132 129 121 135 148 148 136 119 104 118
# 1950 115 126 141 135 125 149 170 170 158 133 114 140
# 1951 145 150 178 163 172 178 199 199 184 162 146 166
# 1952 171 180 193 181 183 218 230 242 209 191 172 194
# 1953 196 196 236 235 229 243 264 272 237 211 180 201
# 1954 204 188 235 227 234 264 302 293 259 229 203 229
# 1955 242 233 267 269 270 315 364 347 312 274 237 278
# 1956 284 277 317 313 318 374 413 405 355 306 271 306
# 1957 315 301 356 348 355 422 465 467 404 347 305 336
# 1958 340 318 362 348 363 435 491 505 404 359 310 337
# 1959 360 342 406 396 420 472 548 559 463 407 362 405
# 1960 417 391 419 461 472 535 622 606 508 461 390 432

set.seed(1) # for reproducibility
promos <- rep(0,length(AirPassengers))
promos[sample(seq_along(AirPassengers),10)] <- 1
promos.future <- c(0,1,0,0,1,0,0,1,0,0,1,0)
AP.with.promos <- AirPassengers
AP.with.promos[promos==1] <- AP.with.promos[promos==1]+120

model <- auto.arima(AP.with.promos,xreg=promos)
summary(model) # examine the model - you'll see the estimated promo coefficient
# Series: AP.with.promos 
# ARIMA(0,1,1)(0,1,0)[12]                    

# Coefficients:
#           ma1    promos
#       -0.3099  122.2599
# s.e.   0.0947    2.2999

# sigma^2 estimated as 151.2:  log likelihood=-457.4
# AIC=920.79   AICc=920.98   BIC=929.42

# Training set error measures:
#                     ME     RMSE     MAE        MPE     MAPE      MASE         ACF1
# Training set 0.2682805 11.12974 8.24397 0.06139784 2.867274 0.1860814 0.0008326436

fcast <- forecast(model,xreg=promos.future,h=length(promos.future))
fcast
#          Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
# Jan 1961       447.1516 431.3951 462.9081 423.0542 471.2490
# Feb 1961       543.4115 524.2670 562.5559 514.1326 572.6904
# Mar 1961       449.1516 427.1345 471.1687 415.4793 482.8239
# Apr 1961       491.1516 466.5956 515.7076 453.5964 528.7068
# May 1961       624.4115 597.5556 651.2674 583.3389 665.4841
# Jun 1961       565.1516 536.1777 594.1255 520.8399 609.4633
# Jul 1961       652.1516 621.2044 683.0988 604.8220 699.4812
# Aug 1961       758.4115 725.6095 791.2135 708.2452 808.5778
# Sep 1961       538.1516 503.5942 572.7090 485.3006 591.0026
# Oct 1961       491.1516 454.9237 527.3795 435.7459 546.5573
# Nov 1961       542.4115 504.5869 580.2361 484.5637 600.2593
# Dec 1961       462.1516 422.7950 501.5082 401.9608 522.3424
promos.ts <- ts(c(AP.with.promos,fcast$mean),
                  start=start(AirPassengers),frequency=frequency(AirPassengers))
promos.ts[c(promos,promos.future)==0] <- NA

plot(fcast)
points(promos.ts,pch=19,col="red")

ARIMAX

Червоні точки - це акції. За замовчуванням ви отримаєте інтервали прогнозування, накреслені сірим кольором. Ви можете подавати кілька моделей регресорів у вашу модель за допомогою xregпараметра, який ви повинні зробити, якщо у вас різні типи рекламних акцій з різними ефектами. Експериментуйте трохи.

Я рекомендую переглянути детальніші дані, ніж щомісяця, якщо вони є, наприклад, щотижня. Особливо, звичайно, якщо ваші акції не працюватимуть цілі місяці. Це можна зробити окремо за продуктами, знову ж таки, особливо якщо ви рекламуєте конкретні товари або цілі категорії.

Альтернативою було б, враховуючи, що вас більше цікавлять поняття, ніж код, подивитися на Експонентне згладжування та змінити його відповідно до ваших потреб, додавши рекламні компоненти до стандартних компонентів трьох рівнів, сезону та тренду. Ви можете зробити набагато більше самостійно за допомогою Експоненціального згладжування, ніж намагаючись максимально оцінити ймовірність моделі ARIMAX, але Згладжування може перетворитись на кошмарний кошмар, якщо у вас є кілька типів просування.


1
Моделі ARIMA з коваріатами обговорюються у розділі 9 книги: www.otexts.org/fpp/9/1
Роб Хандман

Спасибі, Роб. Мені справді потрібно частіше переглядати книгу ...
Стефан Коласа

Дякую @StephanKolassa! побічне запитання, чи можу я отримати книгу, яку ви згадуєте, у форматі mobi чи epub?
Гравітон

1
@Graviton: гарне запитання. Найкраще запитати автора (ів). Один з них - Роб Хайндман, який прокоментував вище.
Стефан Коласа

1
@Graviton. Працюю над цим. Дивіться robjhyndman.com/hyndsight/fpp-amazon
Роб Гіндман

4

по-перше, у вас не так багато даних, з якими можна грати, лише 24 спостереження. У вашому випадку це означає, що у вас ледь є пара параметрів, щоб надійно оцінити. найсистематичніший спосіб прогнозування - це створити процес генерації даних (DGP). ви робите припущення про те, що є справжнім процесом для ваших продажів, а потім намагаєтеся оцінити його параметри.

розглянемо модель чистого часового ряду з AR (1) DGP: , тобто ваші продажі в цьому місяці є середньозваженими середніми продажами за минулий місяць плюс та постійними. у вас вже є 3 параметри (два коефіцієнта та дисперсія помилок), що означає приблизно 8 спостережень на параметр - явно не багато.xt=ϕxt1+c

оскільки ваші продажі сезонні, ми повинні щось робити. один із способів - додати мультиплікативну сезонність : у позначенні оператора відставання або в розширеному вигляді: . це додає ще один параметр для оцінки, так що ви знижуєтесь до 6 спостережень за параметром - справжній розтяг.x t = c + ϕ 1 x t - 1 + ϕ 12 x t - 12 - ϕ 1 ϕ 12 x r - 13(1L)(1L12)xt=cxt=c+ϕ1xt1+ϕ12xt12ϕ1ϕ12xr13

в Matlab ця модель вказана як arima('ARLags',1,'SARLags',12)

це припускаючи, що ваші продажі стабільні, тобто, як правило, не ростуть.

якщо ви думаєте, що ваші продажі зростають, то у вас є два варіанти: випадкова прогулянка (RW) і тенденція часу.

у Matlab RW вказано з arima('D',1,'SARLags',12)

очевидно, що це лише приклади різних ГДЗ. все, що ви робите, майте на увазі кількість параметрів для оцінки. з 24 спостереженнями ваша модель повинна бути дуже простою, максимум 4 параметрами (включаючи дисперсії).


0

Ось що вам слід зробити Складіть два графіки:

  • Продаж проти часу за цілі 24 місяці
  • Продаж проти часу з другим роком, наміченим на першому курсі

Подивись на них. Анотувати дати будь-яких спеціальних акцій чи відомих змагальних заходів. "Грудень", як правило, досить очевидний, але додайте примітку, якщо це допоможе викликати.

Вперед і підходимо до моделі часових рядів - будь-яка модель (їх сотні). Модель може дати вам трохи кращий прогноз на наступний період (t + 1), ніж ваше судження. Принаймні, це оскаржить ваше судження. Поза наступним періодом (t + n, n> 1) будь-яка модель часового ряду є лайна. † Тож забудьте про кількісну оцінку ефективності продажних кампаній або ефектів конкурентів. Якщо порівнювати фактичні продажі з прогнозами, ви виявите, що прогнози є лайними. Прогнозувати майбутнє важко, і жоден метод не змінює цей основний факт.

Ви знайдете свої два графіки більш корисними. Вивчайте їх деякий час, а потім витрачайте решту часу, придумуючи ідеї, як збільшити продажі - це буде набагато вигідніше використовувати ваш час, який намагатиметься відповідати моделі часових рядів.

† Ви більше сподіваєтесь, що зможете створити модель прогнозування на основі провідних показників, тобто продаж житла за попередній місяць може бути корисним для прогнозування продажів віконних відтінків у поточному місяці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.