Як заповнити відсутні дані в часових рядах?


16

У мене є великий набір даних про забруднення, які реєструються кожні 10 хвилин протягом двох років, однак у даних є ряд прогалин (включаючи деякі, які тривають протягом декількох тижнів).

Дані, здається, є досить сезонними, і існує велика різниця протягом дня порівняно з ніччю, коли значення не мають великої різниці, а точки даних нижчі.

Я розглядав можливість встановлення льосової моделі на підмножини денного та нічного часу (оскільки між ними очевидна різниця), а потім передбачити значення відсутніх даних та заповнення цих балів.

Мені було цікаво, чи це підходящий спосіб вирішити цю проблему, а також чи є необхідність додати локальну варіацію до прогнозованих точок.

Відповіді:


20

Відповідь залежатиме від вашої конструкції дослідження (наприклад, часовий ряд поперечного перерізу - часовий ряд когорт, часовий ряд серійних когорт?). Honaker і King розробили підхід, який корисний для часових рядів поперечного перерізу (можливо, корисних для часових рядів серійних когорт, залежно від ваших припущень), включаючи пакет R Amelia II для введення таких даних. Тим часом Spratt & Co. описали інший підхід, який може бути використаний у деяких проектах часових рядів, але він обмежений у реалізації програмного забезпечення.

Поперечного перерізу конструкції часових рядів (ака дослідження панелі дизайну) є один , в якому населення (s) (ються) повторно проби (наприклад, щороку), використовуючи протокол ж дослідження (наприклад, одні і ті ж змінні, інструменти і т.д. ). Якщо стратегія вибірки є репрезентативною, такі види даних дають щорічну картину (одне вимірювання на кожного учасника чи суб'єкта) розподілу цих змінних для кожної сукупності дослідження.

Дизайн часових рядів когорти ( також відомий як повторні дослідження когорти дизайн, поздовжнє дизайн дослідження, також іноді називають дизайн дослідження панелі) є той , в якому індивідуальні одиниці аналізу проб один раз і з подальшим в протягом тривалого періоду часу. Особи можуть бути представлені на вибірці в представницькому порядку з однієї або декількох груп населення. Однак репрезентативний зразок когортного часового ряду з часом буде ставати все більш бідним представником цільової популяції (принаймні, у людській популяції) через те, що люди народжуються або старіють в цільовій популяції, а також помирають або старіють із неї з імміграцією та еміграцією.

Дизайн серійних когорт часових рядів (він же повторив, мульти- і кілька когорт, або панель дизайн дослідження) є один , в якому населення (s) (ється) повторно пробами (наприклад, щороку), використовуючи протокол ж дослідження ( наприклад, ті ж змінні, інструменти тощо), які вимірюють окремі одиниці аналізу в сукупності за два моменти часу протягом періоду (наприклад, протягом року) з метою створення заходів швидкості змін. Якщо стратегія вибірки є репрезентативною, такі дані дають щорічну картину темпів зміни цих змінних для кожної сукупності дослідження.

Список літератури
Honaker, J. and King, G. (2010). Що робити з пропущеними значеннями в даних поперечного перерізу часових рядів . Американський журнал політичної науки , 54 (2): 561–581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., and Tilling, K. (2010). Стратегії багаторазової імпутації в поздовжніх дослідженнях . Американський журнал епідеміології , 172 (4): 478–4876.


Дякую за вашу відповідь Мені було просто цікаво, чи можете ви визначити різні типи часових рядів (когорту, поперечний переріз тощо), оскільки я відносно новий тип цього дослідження і раніше не стикався з цими термінами.
Jamesm131

@ Jamesm131 Дивіться мою відредаговану відповідь.
Олексій

7

Ви можете використовувати пакет imputeTS в R. Я вважаю, що дані, над якими ви працюєте, - це однозначні часові ряди. Пакет imputeTS спеціалізується на (одновимірній) імпутації часових рядів. Він пропонує декілька різних реалізацій алгоритму імпутації. Крім алгоритмів імпутації, пакет також забезпечує побудову та друк функцій статистики про відсутні дані. Я рекомендую вам заглянути в Державні космічні моделі для відсутніх цінностей . Цей пакет повинен допомогти вам у аналізі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.