Яка угода з автокореляцією?


13

Для передмови це я маю досить глибоке математичне підґрунтя, але я ніколи насправді не мав справу з часовими рядами чи статистичним моделюванням. Тож вам не треба бути дуже лагідним зі мною :)

Я читаю цей документ про моделювання використання енергії в комерційних будівлях, і автор висловлює це твердження:

[Наявність автокореляції виникає], оскільки модель була розроблена за даними часових рядів використання енергії, яка за своєю суттю є автокорельованою. Будь-яка суто детермінована модель даних часових рядів матиме автокореляцію. Встановлено, що автокореляція зменшується, якщо в модель включено [більше коефіцієнтів Фур'є]. Однак у більшості випадків модель Фур'є має низький рівень CV, тому модель може бути прийнятною для практичних цілей, що не вимагає високої точності.

0.) Що означає "будь-яка суто детермінована модель даних часових рядів матиме автокореляцію"? Я нечітко розумію, що це означає - наприклад, як ви могли б передбачити наступний момент у вашому часовому ряду, якби у вас була 0 автокореляція? Це точно не математичний аргумент, тому це 0 :)

1.) У мене було враження, що автокореляція в основному вбила вашу модель, але, думаючи про це, я не можу зрозуміти, чому це має бути так. То чому автокореляція - це погана (або добра) річ?

2.) Рішення, яке я чув для роботи з автокореляцією, полягає в тому, щоб відрізняти часовий ряд. Не намагаючись прочитати думку автора, чому б не зробити різницю, якщо існує незначна автокореляція?

3.) Які обмеження ставлять на моделі несуттєві автокореляції? Це десь припущення (тобто нормально розподілені залишки при моделюванні з простою лінійною регресією)?

У будь-якому випадку, вибачте, якщо це основні питання, і заздалегідь дякую за допомогу.

Відповіді:


10
  1. Я думаю, що автор, напевно, говорить про залишки моделі. Я стверджую це через його твердження про додавання більше коефіцієнтів фур'є; якщо, як я вважаю, він підходить до моделі фур’є, тоді додавання більше коефіцієнтів зменшить автокореляцію залишків за рахунок більш високого CV.

    Якщо у вас виникли проблеми з візуалізацією цього, подумайте про наступний приклад: припустимо, у вас є наступний набір даних на 100 балів, який походить від двокоефіцієнтної моделі фур’є з додаванням білого гауссового шуму:

    Точки даних

    На наступному графіку показано два підходи: один, виконаний з 2 коефіцієнтами фур'є, і один з 200 коефіцієнтами фур'є

    Підходить

    Як бачимо, коефіцієнт 200 фур'є краще відповідає ДАТАПОЙНТУ, а 2-коефіцієнт ("реальна" модель) краще відповідає МОДЕЛІ. Це означає, що автокореляція залишків моделі з 200 коефіцієнтами майже напевно буде ближчою до нуля за всіх відстань, ніж залишків 2-коефіцієнтної моделі, тому що модель з 200 коефіцієнтами відповідає точно майже всім точкам даних (тобто залишки будуть бути майже всі нулі). Однак, що ви думаєте, що станеться, якщо ви залишите, скажімо, 10 точок даних із вибірки та помістите ті самі моделі? 2-коефіцієнт модель краще прогнозує точки, які ви вилучили з вибірки! Таким чином, це призведе до меншої похибки CV, якщо застосовується до моделі з коефіцієнтом 200; це називається переобладнанням. Причина цього "магії" полягає в тому, що резюме насправді намагається виміряти - це помилка передбачення , тобто, наскільки добре ваша модель прогнозує точки даних, які не є у вашому наборі даних.

  2. У цьому контексті автокореляція на залишки є «поганою», оскільки це означає, що ви недостатньо добре моделюєте кореляцію між точками даних. Основна причина, чому люди не відрізняються серіями, полягає в тому, що вони насправді хочуть моделювати базовий процес таким, яким він є. Одна відмінність часового ряду, як правило, для позбавлення від періодичності чи тенденцій, але якщо ця періодичність чи тенденція насправді те, що ви намагаєтеся моделювати, то їх розмежування може здатися крайнім варіантом (або варіантом для моделювання залишків з більш складний стохастичний процес).
  3. Це дійсно залежить від сфери, в якій ви працюєте. Це може бути проблемою і з детермінованою моделлю. Однак, залежно від форми автокореляції, це легко можна побачити, коли автокореляція виникає через, наприклад, шум мерехтіння, шум, подібний до ARMA, або якщо він є залишковим базовим періодичним джерелом (у такому випадку, можливо, ви хочете збільшити кількість коефіцієнтів фур'є).

Дякую за вашу відповідь, і якщо ви хочете, я хотів би спробувати переварити їх за один раз. Для 1.) Чи існує інтуїтивний спосіб зрозуміти, чому включення більшої кількості коефіцієнтів Фур'є зменшує автокореляцію та збільшує CV (я припускаю, що це CV залишків)?
BenDundee

1
Я додав приклад. Сподіваюся, це допомагає. І так, він посилається на резюме залишків.
Нестор

Ах гаразд, я думаю, що бачу. Це пов'язане з тим, що я збирався запитати щодо 2. Як можна було б пропрацювати цю модель (загалом), щоб краще зрозуміти кореляцію? Чи можете ви додати обмеження щодо матриці кореляції коефіцієнтів Фур'є?
BenDundee

1
Це складне завдання, над яким я теж працюю. Особливо з періодичними детермінованими моделями стає важко зрозуміти, яку модель шуму використовувати. Велика проблема полягає в тому, що ви не знаєте априорі кількість коефіцієнтів фур'є-моделі, тому вони є випадковими змінними, які вам також доведеться моделювати. За наявності невеликої кількості точок даних я б точно вирішив зробити зворотний стрибок MCMC для того, щоб моделювати це. Я б спробував різні моделі шуму і порівняв AIC / BIC між ними. Однак для великих наборів даних це неможливо.
Нестор

3

Мені здається, що цей документ " Помилкові регресії в економетрії " є корисним, коли я намагаюся зрозуміти, чому необхідно усунути тенденції. По суті, якщо дві змінні мають тенденцію, то вони будуть змінюватись, що є рецептом проблеми.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.