Чи відрізняється Пророк від Facebook від лінійної регресії?


11

Тож, що я читав про пророка Facebook, це те, що він в основному розбиває часові ряди на тренди та сезонність. Наприклад, модель добавки буде записана у вигляді:

у(т)=г(т)+с(т)+год(т)+ет

з

  • т час
  • г(т) тенденція (може бути лінійною чи логістичною)
  • с(т) сезонність (щодня, тиждень, рік ...)
  • год(т) свята
  • ет помилка

Мої запитання: Чи не можна це зробити за допомогою простої лінійної регресії? Якими були б відмінності в термінах результатів, якби ми порівняли їх, і чому?


Так, ви могли б зробити це за допомогою лінійної моделі. Я не знаю Пророка, але якщо це все, що він робить, то різниці немає.
user2974951

Відповіді:


13

Проблема тут полягає в тому, щоб дійти до рівняння, яке аналізує спостережувані дані на сигнал і шум. Якщо ваші дані прості, то ваш регресійний підхід може працювати. Слід подбати про розуміння деяких припущень, які вони роблять із Пророком. Вам слід краще зрозуміти, що робить Пророк, оскільки це не просто відповідає простої моделі, але намагається додати певну структуру.

Наприклад, деякі роздуми, які я зробив, прочитавши їх добре написане вступ, можуть допомогти вам у вашій оцінці. Я заздалегідь прошу вибачення, якщо неправильно зрозумів їхній підхід, і хотів би виправитись, якщо так.

1) Їх ведучий приклад має в тренді дві точки перелому, але вони зафіксували лише найочевидніший.

2) Вони ігнорують будь-яку структуру ARIMA, що відображає пропущені стохастичні ряди або значення використання історичних значень Y для орієнтації на прогноз.

3) Вони ігнорують будь-яку можливу динаміку (ефект відведення та відставання) стохастичних та детермінованих рядів, запропонованих користувачем. Причинно-наслідкові регресійні ефекти Пророка просто просто сучасні.

4) Не робиться спроб визначити зрушення кроку / рівня в серії або сезонні імпульси, наприклад, зміна ЕФЕКТУ ПОНЕДІНИ на півдорозі через якусь невідому зовнішню подію. Пророк передбачає "простий лінійний ріст", а не перевіряє його, вивчаючи альтернативні можливості. Для можливого прикладу цього див. Прогнозування повторюваних замовлень для онлайн-підписки з використанням Facebook Prophet та R

5) Синуси та косинуси - це непрозорий спосіб поводження з сезонністю, тоді як сезонні наслідки, такі як день тижня, день місяця, тиждень місяця, місяць року набагато ефективніші / інформативніші при боротьбі з антропогенними (маючи справу з людьми!) ефектами.

Запропонувати частоту 365,25 для річних моделей має мало сенсу, оскільки ми не виконуємо ті ж дії в той самий день, як у минулому році, тоді як щомісячна активність набагато наполегливіша, але, схоже, Пророк не пропонує 11-місячних показників варіант. Щотижневі частоти 52 мало сенсу, тому що у нас немає 52 тижнів щороку.

6) Не робиться спроб перевірити помилкові процеси, які є гауссовими, тому можна зробити значущі тести на важливість.

7) Не турбуйтеся про те, щоб дисперсія помилок моделі була однорідною, тобто не змінювалась детерміновано в конкретні моменти часу, що передбачає зважені найменші квадрати. Не турбуйтеся щодо пошуку оптимальної силової трансформації для вирішення дисперсії помилок, пропорційної очікуваному значенню Коли (і навіщо) слід приймати журнал розподілу (чисел)? .

8) Користувач повинен заздалегідь вказати всі можливі наслідки відхилення та відставання навколо подій / свят. Наприклад, щоденні продажі часто починають зростати наприкінці листопада, що відображає довгостроковий ефект Різдва.

9) Не викликає занепокоєння, що отримані помилки не мають структури, що дозволяє запропонувати шляхи вдосконалення моделі за допомогою діагностичної перевірки достатності.

10) Мабуть, немає побоювань щодо вдосконалення моделі шляхом вилучення несуттєвої структури.

11) Не існує можливості отримати сімейство модельованих прогнозів, де межі довіри можуть не обов'язково бути симетричними через завантаження помилок моделі з урахуванням можливих аномалій.

12) Дозволяти користувачеві робити припущення щодо тенденцій (# точок прориву трендів і фактичних точок проходу) дозволяє отримати небажану / непридатну гнучкість в умовах масштабного аналізу, який за своїм ім'ям призначений для вільних масштабних програм.


Погодьтеся, але я б сказав, що ці речі ближчі до "приємно мати", то "повинні мати". Ви можете мати якісні моделі прогнозування, де відсутні деякі з них. Але, як я вже сказав, хороші бали та приємний огляд.
Тім

Ви цілком правильні у своєму роздумі ... притаманна складність "даних" є вирішальним питанням. Прості дані .. потрібні прості рішення .. складні дані говорять про те, що "приємно мати" може стати "необхідністю мати". Тільки ваші дані точно знають! Бритва Оккама приходить на розум ..
IrishStat

@Tim stats.stackexchange.com/questions/417908/… нитка говорить про те, що деякі функції, які "приємно мати", насправді повинні бути "повинні мати", щоб сформувати неправильні припущення, такі як "проста лінійна тенденція".
IrishStat

10

Я не використовував його, але це реферат їх препринта (моє наголос):

Прогнозування - це загальне завдання з вивчення даних, яке допомагає організаціям планувати потенціал, встановлювати цілі та виявляти аномалію. Незважаючи на його важливість, існують серйозні проблеми, пов'язані з розробкою надійних і якісних прогнозів - особливо, коли є різноманітні часові ряди, і аналітики, які мають досвід в моделюванні часових рядів, відносно рідкісні . Для вирішення цих завдань ми описуємо практичний підхід до прогнозування "в масштабі", який поєднує настроювані моделі з аналізом продуктивності аналітика в циклі. Ми пропонуємо модульну регресійну модель з інтерпретаційними параметрами, яку інтуїтивно може регулювати аналітики з доменними знаннями про часовий ряд. Ми описуємо аналіз ефективності для порівняння та оцінки процедур прогнозування, а також автоматично прогнозуємо прогнози для ручного огляду та коригування. Інструменти, які допомагають аналітикам найбільш ефективно використовувати свою експертизу, дозволяють надійно та практично прогнозувати часові ряди бізнесу.

У вступі:

Ми спостерігали дві основні теми в практиці створення бізнес-прогнозів. По-перше, повністю автоматичні методи прогнозування можуть бути важко налаштовані і часто занадто негнучкі, щоб включати корисні припущення або евристику. По-друге, аналітики, відповідальні за завдання з інформатики даних у всій організації, як правило, мають глибоку експертизу щодо конкретних продуктів або послуг, які вони підтримують, але часто не проводять навчання прогнозуванню часових рядів.

Тому мені здається, що вони не стверджують, що зробили тут істотний статистичний прогрес (хоча це здатне набагато більше, ніж проста модель, яку ви накреслили). Натомість вони стверджують, що їх система робить можливим для великої кількості людей, які не мають досвіду в аналізі часових рядів, щоб генерувати прогнози, застосовуючи власну експертизу домену та специфічні для системи обмеження.

Якщо у вас вже є досвід як аналізу часових рядів, так і кодування складних моделей, це може бути не дуже корисно для вас. Але якщо їхні твердження вірні, це може бути дуже корисно! Наука (і комерція) просувається не лише завдяки новим ідеям, а й завдяки новим інструментам та їх розповсюдженню (див. Цей короткий твір Фрімана Дайсона про тему та цю відповідь ).

Візьмемо приклад із самої статистики: Rне представляв статистичного прогресу, але він мав величезний вплив, оскільки це спростило набагато більше людей робити статистичний аналіз. Це ті ліси, на яких будується велика кількість статистичного розуміння. Якщо нам пощастить, Пророк може зіграти подібну роль.

Дайсон, Фріман Дж. "Чи наука переважно керується ідеями чи інструментами?" Наука 338, вип. 6113 (2012): 1426-1427.


0

Вам не вистачає точок зміни, кусочно лінійних сплайнів, які можна реалізувати в лінійних моделях.

Ви маєте рацію, що принаймні в обмежувальному випадку це лінійна регульована регресія (регуляризація L1 та L2).

Зауважимо, що існує окрема модель пророка, логістичне зростання.

Крім того, ви припускаєте, що сезонні фактори є добавкою, але вони також підтримують мультиплікативний сезонний ефект, що здається більш природним принаймні для моделювання росту.


Припущення пророка про взяття журналів летить перед цією цінною дискусією ... stats.stackexchange.com/questions/18844/…, де силові перетворення виправдані на основі емпіричного співвідношення між очікуваним значенням та відхиленням помилки моделі АБО конкретною нелінійна база презумпцій на основі знань про домен.
IrishStat

@IrishStat Дякую вам за цей момент (я пропустив, що вони перетворять журнал перетворення для впровадження мультиплікативної сезонності, вони використовують STAN, тому я вважаю, що вони могли використовувати нелінійну модель замість того, щоб робити журнали). Чи можете ви пояснити свою відмінність між припущенням мультиплікативної сезонності та «нелінійною презумпцією ..»
seanv507

Якщо ви подивитесь на відповідь @ whuber stats.stackexchange.com/questions/298/…, він пропонує перетворити "коли наукова теорія вказує", що було б можливим нелінійним припущенням, заснованим на знаннях домену. Емпіричні перетворення потужності корисні, коли дисперсія помилок пропорційна очікуваному значенню, інакше це може бути просто «перев’язка вікон».
IrishStat

0

Багато можна зробити за допомогою простої лінійної регресії, але не все, що робить Пророк. Всього в одному прикладі ви можете вказати свого власного кандидата в точку зміни для тенденції, і Пророк буде використовувати його як попередній.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.