У чому проблема використання R-квадрата в моделях часових рядів?


12

Я читав, що використання R-квадрата для часових рядів не є доцільним, оскільки в контексті часових рядів (я знаю, що є інші контексти) R-квадрат більше не є унікальним. Чому це? Я намагався роздивитись це, але нічого не знайшов. Зазвичай я не приділяю великої вартості R-квадратам (або Регульованому R-Squared), коли я оцінюю свої моделі, але багато моїх колег (тобто бізнес-майорів) абсолютно закохані в R-Squared, і я хочу мати можливість поясніть їм, чому R-Squared не підходить у контексті часових рядів.


3
Пошук у Google: "помилкова регресія в економетриці". Або ознайомтеся з паперами Грейнджера та Ньюболда . Інші можуть надати більш детальну інформацію у відповідях.
Graeme Walsh

@ Richard Hardy, будь ласка, розкажіть про те, "Якщо ми візьмемо зразок R2 як міру його популяційного аналога, він розбивається на інтегровані часові ряди."
Сіддхарт Кришнамурті

Відповіді:


18

Деякі аспекти проблеми:

Якщо хтось дає нам вектор чисел і сумісну матрицю чисел , нам не потрібно знати, яке відношення між ними виконується деякою алгеброю оцінки, трактуючи як залежну змінну. Алгебра матиме результат, незалежно від того, представляють ці числа поперечний переріз чи часовий ряд чи дані панелі, чи містить матриця відсталі значення тощо. yXyXy

Фундаментальне визначення коефіцієнта визначення єR2

R2=1SSresSStot

де - сума залишків у квадраті від певної процедури оцінки, а - сума відхилень у квадраті залежної змінної від її середнього зразка.SSresSStot

Поєднуючись, завжди буде однозначно обчислюватися для конкретного зразка даних, конкретного формулювання співвідношення між змінними та конкретної процедури оцінки, за умови лише того, що процедура оцінки така, що вона дає точкові оцінки з невідомих залучених величин (а значить, і точкових оцінок залежної змінної, а отже, і точкових оцінок залишків). Якщо будь-який з цих трьох аспектів зміниться, арифметичне значення взагалі зміниться, але це справедливо для будь-якого типу даних, а не лише часових рядів.R2R2

Отже, проблема з та часовими рядами полягає не в тому, чи є вона "унікальною" чи ні (оскільки більшість процедур оцінки даних часових рядів надають точкові оцінки). Питання полягає в тому, чи є "звичайний" специфікація часових рядів технічно придатною для і чи надає якусь корисну інформацію. R2R2R2

Інтерпретація як "пояснена залежність змінної варіабельності змінної" критично залежить від залишків, що дорівнюють нулю. У контексті лінійної регресії (за будь-якими типами даних) та оцінки звичайних найменших квадратів це гарантується лише в тому випадку, якщо специфікація включає в матрицю регресора постійний термін ("дрейф" у термінології часових рядів). У авторегресивних моделях часових рядів дрейф у багатьох випадках не включається. R2

Більш загально, коли ми стикаємося з даними часових рядів, "автоматично" ми починаємо думати про те, як еволюціонуватиме часовий ряд у майбутнє. Тож ми схильні оцінювати модель часових рядів, спираючись більше на те, наскільки добре вона прогнозує майбутні значення , ніж наскільки вона відповідає минулим значенням . Але основному відображає останнє, а не перше. Загальновідомий факт, що не зменшується в кількості регресорів, означає, що ми можемо отримати ідеальну форму , зберігаючи додавання регресорів ( будь-яких регресорів, тобто будь-яких рядів чисел, можливо, абсолютно не пов'язаних концептуально до залежної змінної) . Досвід показує, що ідеальне пристосування, отримане таким чином, також дасть безглуздоR2R2 прогнози поза вибіркою.

Інтуїтивно це може бути контрінтуїтивним компромісом, оскільки фіксуючи всю мінливість залежної змінної в оціночному рівнянні, ми перетворюємо несистемну мінливість на систематичну, що стосується прогнозування (тут слід розуміти "несистематичність" стосовно наших знань -з чисто детермінованої філософської точки зору, немає такого поняття, як "безсистемна мінливість". Але настільки, наскільки наші обмежені знання змушують нас трактувати певну мінливість як "несистематичну", то спроба все-таки перетворити її на систематичну компонент, приносить передбачення катастрофи).

Насправді це, мабуть, найбільш переконливий спосіб показати комусь, чому не повинен бути головним інструментом діагностики / оцінки при роботі з часовими рядами: збільшити кількість регресорів до моменту, коли . Потім візьміть оцінене рівняння і спробуйте передбачити майбутні значення залежної змінної.R2R21


Хороше пояснення, але тоді, чому це додається як стандартний вихід програмного забезпечення в статистичний пакет

@brijesh Регресія-традиція, я б сказав.
Алекос Пападопулос

Чудова відповідь! Однак він містить мало інформації, яка є особливою для часових рядів. Прогнозування та відповідність вибірки стосується інших типів даних, мабуть, стільки ж, скільки і для часових рядів. З іншого боку, відсутній один ключовий аспект, характерний для часових рядів. Я маю на увазі регресування інтегрованих змінних. Якщо взяти зразок як міру його популяційного аналога, він розбивається за інтегральним часовим рядом. (Я міг би написати це як відповідь, але зараз не маю часу.)R2
Річард Харді,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.