Я випускник бізнесу та економіки, який зараз навчається на ступінь магістра з інженерії даних. Під час вивчення лінійної регресії (LR), а потім аналізу часових рядів (TS) у мене в голові з’явилося запитання. Навіщо створювати абсолютно новий метод, тобто часовий ряд (ARIMA), замість того, щоб використовувати кілька лінійних регресій і додавати до нього відсталі змінні (з порядком відставання, визначеним за допомогою ACF і PACF)? Тож викладач запропонував мені написати невеликий твір про проблему. Я б не прийшов шукати допомоги з порожніми руками, тому я зробив своє дослідження на цю тему.
Я вже знав, що при використанні LR, якщо припущення Гаусса-Маркова порушені, регресія OLS неправильна, і що це відбувається при використанні даних часових рядів (автокореляція тощо). (Ще одне питання з цього приводу, одне припущення GM полягає в тому, що незалежні змінні повинні нормально розподілятися? або просто залежна змінна, що залежить від незалежних?)
Я також знаю, що при використанні розподіленої регресії відставання, що, на мою думку, я пропоную тут, і використовуючи OLS для оцінки параметрів, може (очевидно) виникнути мультиколінеарність між змінними, тому оцінки будуть неправильними.
У подібному дописі про TS і LR тут @IrishStat сказав:
... модель регресії - це окремий випадок моделі функції передачі, яка також відома як модель динамічної регресії або модель XARMAX. Важливим моментом є те, що ідентифікація моделі у часових рядах, тобто відповідні відмінності, відповідні відставання X, відповідна структура ARIMA, відповідна ідентифікація не визначеної детермінованої структури, таких як імпульси, зрушення рівня, локальні тенденції часу, сезонні імпульси та включення зміни параметрів або відхилення помилок повинні враховуватися.
(Я також читав його статтю в Автобоксі про Box Jenkins vs LR.) Але це все ще не вирішує мого питання (або, принаймні, не роз'яснює різні для мене механіки RL та TS).
Очевидно, що навіть із відсталими змінними OLS виникають проблеми, і це не ефективно, ані правильно, але, використовуючи максимальну ймовірність, ці проблеми зберігаються? Я читав, що ARIMA оцінюється через максимальну ймовірність, тому, якщо LR з лагами оцінюється з ML замість OLS, чи дає це "правильні" коефіцієнти (припустимо, що ми також включаємо терміни з відсталими помилками, як МА порядку q).
Словом, проблема OLS? Чи вирішена проблема із застосуванням ML?