Я намагаюся вирішити проблему, яка стосується імпутації відсутніх даних у панельному дослідженні даних (Не впевнений, чи правильно я використовую 'панельне дослідження даних' - як я дізнався це сьогодні.) Я маю загальні дані про кількість смертності за 2003 рік до 2009 року, всі місяці, чоловіки та жінки, для 8 різних районів та для 4 вікових груп.
Рамка даних виглядає приблизно так:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
За 10 місяців, поширюваних на 2007 та 2008 роки, деякі загальні випадки смерті від усіх районів не зафіксовані. Я намагаюся оцінити ці відсутнє значення за допомогою методу множинної імпутації. Або з використанням узагальнених лінійних моделей або моделей SARIMA.
Моя найбільша проблема - використання програмного забезпечення та кодування. Я задав запитання щодо Stackoverflow, де я хочу витягнути дані в менші групи, такі як ця:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
Збирається
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
Але хтось запропонував мені скоріше поставити своє запитання тут - можливо, попросити напрямок? Наразі я не можу ввести ці дані як належне дослідження часових рядів / панелей у R. Моя кінцева мета - використовувати ці дані та amelia2
пакет із його функціями, щоб зараховувати пропущені TotalDeaths
протягом певних місяців у 2007 та 2008 роках, де ці дані зниклий безвісти.
Будемо вдячні за будь-яку допомогу, як це зробити та, можливо, пропозиції щодо вирішення цієї проблеми.
Якщо це допомагає, я намагаюся дотримуватися аналогічного підходу до того, що зробив Клінт Робертс у своїй докторській дисертації .
Редагувати:
Після створення змінної 'time' і 'group', як запропонував @Matt:
> head(dat)
District Gender Year Month AgeGroup Unnatural Natural Total time group
1 Khayelitsha Female 2001 1 0 0 6 6 1 Khayelitsha.Female.0
2 Khayelitsha Female 2001 1 01-4 1 3 4 1 Khayelitsha.Female.01-4
3 Khayelitsha Female 2001 1 05-14 0 0 0 1 Khayelitsha.Female.05-14
4 Khayelitsha Female 2001 1 15up 8 73 81 1 Khayelitsha.Female.15up
5 Khayelitsha Female 2001 2 0 2 9 11 2 Khayelitsha.Female.0
6 Khayelitsha Female 2001 2 01-4 0 2 2 2 Khayelitsha.Female.01-4
Як ви помітили, насправді є додаткові деталі «Природне» та «Неприродне».
Amelia
трохи грався, але здався (до цього). Раніше я бачив віньєтку (але її якось втратив!), Просто переглянув її, і я її пройду. Одна з проблем, які зараз у мене є, полягає в тому, що я не впевнений у створенні зміннихgroup
таtime
змінних. (Я спробував створити їх для аналізу / прогнозування часових рядів, але отримав цикл навколо нього.) Я впевнений, що це в віньєтці - тому я з вами повернуся, якщо борюся. Ще раз дякую :)