Що робити для пропущених балів у часовому ряду CPI?


3

Я переглядаю набори даних ІСЦ для країн, що розвиваються, у яких є прогалини.

Для кожної країни я маю два часові ряди із середньорічними середніми показниками за 2000-2013 роки: i) Загальний / загальний ІСЦ та іі) ІСЦ споживчих цін. Я також припускаю, що споживчий індекс споживчих цін повинен мати певні стосунки із загальною / загальною ІСЦ, оскільки категорія харчових продуктів має власну вагу в загальній ІСЦ.

Зараз у мене є два типи випадків, такі як: http://imgur.com/a/9z7o8#1, де проміжки значень. Я припускаю, що можу тут інтерполювати, якщо так, то як би я продовжував це робити? Я також маю справу зі складнішими справами, такими як: http://imgur.com/a/9z7o8#0 , будь-які пропозиції в цьому випадку? Невже тут може мати сенс проста екстраполяція?

Варіант мого першого випадку, який я прочитав (на BLS), - це взяття середнього геометричного року безпосередньо перед і після відсутнього значення. Інші люди запропонували мені передбачити пропущені значення за допомогою простої регресійної моделі ІСЦ на дефляторі ВВП на той рік (який у мене є).

Крім того, в деяких випадках прогалини в річних середніх значеннях існують, оскільки щомісячні дані, необхідні для обчислення цих середніх показників, є неповними. Тож скажіть, у мене є лише дані 2006 року для Росії за місяці січень-червень, тоді середня середньорічна точка даних відсутня в ряді даних. Я припускаю, що я можу просто взяти просту середню кількість доступних місяців і замінити це на 2006 рік?

Спасибі заздалегідь


Мені подобається ідея використання регресійного моделювання з попередніми даними для прогнозування відсутніх значень. Що ви використовуєте для даних? Що робити, якщо ви, орієнтовно, виробите "інтервал довіри" для відсутніх значень? Якщо ви виявите, що значення, яке спрямоване на ту чи іншу крайність, є суттєвим, то, можливо, ви могли б вдосконалити процес. Якщо у вас є порівнянні результати, коли ви пускаєте тоді, передбачуване значення, ймовірно, досить добре. MV[MVϵ,MV+ϵ]
123

Дякую. Планую використовувати ІСЦ для екстраполяції інших економічних показників. Щодо вашої пропозиції щодо регресу, я б не зіткнувся з проблемами, оскільки рег. ІСЦ на дефляторі ВВП припускав би, що вони обидва рухаються разом? Ми знаємо, що обидва показники інфляції, на жаль, не завжди роблять це.
СтатистикаScared

1) Як ви вважаєте, ви можете припустити, що відсутність даних про інфляцію не пов'язана зі значеннями інфляції? 2) Що цікавить, динаміка інфляції чи загальний рівень цін?
BKay

1) Так, я впевнений, що вони не пов'язані між собою і 2) цікавий загальний рівень цін. Спасибі
СтатистикаScared

Відповіді:


0

Статистичний аналіз із відсутніми даними Малого та Рубіна - це орієнтир для роботи з відсутніми даними, принаймні, якщо не потрібно нічого найсучаснішого. Загалом це складна проблема, яка залишається зоною активних досліджень. Порівняно легкі випадки, коли дані відсутні зовсім-навмання або відсутні у випадковому порядку . Навіть серед найосновніших методів одинарної імпутації у вас є багато варіантів (список від Little and Rubin):

  1. Середня імпутація (замінити середніми значеннями)
  2. Регресійна імпутація
  3. Імпутація стохастичної регресії
  4. Імпутація гарячої колоди (замінити окремі значення, отримані з "подібних" одиниць відповіді)
  5. Заміна (не стосується вашого контексту)
  6. Імпутація холодної колоди (замініть відсутнє значення постійним значенням із зовнішнього джерела, як останнє значення)
  7. Композиції вищевказаних методів

Однак, якщо весь загальний рівень цін цікавить, а не динаміку рівня цін (наприклад, тому, що ви хочете дефлятор замість вивчення динаміки інфляції), лінійна інтерполяція / екстраполяція може бути просто чудовою. Принципово, оскільки дефляція є рідкісною, якщо ціни 100 в момент t і 110 при t + 2, реально ціни при t + 1 будуть десь у і багато моделей можуть вас дістати. [100,110]

Ви можете перевірити якість та прогнозування якості вибірки для оцінок, чи ваш метод є хорошим прогнозувачем відсутніх цін. В рамках вибіркового тестування може бути настільки ж просто, як запитати, чи є високою для прогнозної моделі. Очевидно, що ви можете зробити набагато багатший аналіз, ніж це. Для вибіркових випробувань слід розглянути поділ вибірки та калібрування моделі лише на першій половині даних, а потім оцінити якість прогнозування на другу половину даних.R2


Чи можете ви трохи розширити способи введення регресії, які ви вимірюєте, має багато можливостей. Чи була б простою регресія ІСЦ на час навіть здійсненою? Я знайшов би параметри регресії та включив у відсутній рік до згенерованого рівняння регресії, щоб передбачити ІСЦ для відсутнього року. Роблячи таку процедуру, я стрибаю занадто далеко вперед з точки зору типу візерунка, що демонструється моїми даними?
СтатистикаScared

Це залежить від використання, яке я уявляю. Скажімо, у вас був номінальний ВВП Росії на 2010-2013 роки, але не було інфляційних рядів для тих років, і у вас була модель російської економіки, яка потребувала б реального ВВП. Ви можете використовувати метод для заміни відсутніх даних або ви можете залишити спостереження за 2010-2013 роки. Але це пізніше теж не є нейтральним. Оскільки ви кажете, що ви ставитесь до рівня цін більше, ніж ВВП, пропоную моделювати це замість ІСЦ.
BKay
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.