Як комбінувати довірчі інтервали для дисперсійної складової моделі змішаних ефектів при використанні множинної імпутації


20

Логіка багаторазової імпутації (ІМ) полягає в тому, щоб присвоїти пропущені значення не один раз, а декілька (як правило, М = 5) разів, в результаті чого було завершено набір даних M. Потім завершені набори даних аналізуються методами повних даних, за допомогою яких оцінювання М та їх стандартні помилки поєднуються за допомогою формул Рубіна для отримання "загальної" оцінки та її стандартної помилки.

Чудово до цих пір, але я не впевнений, як застосувати цей рецепт, коли мова йде про дисперсійні компоненти змішаних ефектів. Розподіл вибірки дисперсійної складової є асиметричним, тому відповідний довірчий інтервал не можна навести у типовій формі "оцінка ± 1,96 * se (оцінка)". З цієї причини пакети R lme4 і nlme навіть не забезпечують стандартних помилок компонентів дисперсії, а лише надають довірчі інтервали.

Тому ми можемо виконати ІМ на наборі даних, а потім отримати М довірчі інтервали на компонент дисперсії після встановлення тієї ж моделі змішаного ефекту на завершених М наборах даних. Питання полягає в тому, як поєднати ці M інтервали в один "загальний" довірчий інтервал.

Я думаю, що це має бути можливим - автори статті (yucel & demirtas (2010) Вплив ненормальних випадкових впливів на висновок MI), схоже, зробили це, але вони не пояснюють, як саме.

Будь-які поради будуть дуже зобов'язані!

Ура, Рок


Дуже цікаве запитання. Я з нетерпінням чекаю ваших результатів, якщо ви хочете поділитися ними ...
chl

@chl: Я можу надіслати вам таблиці з результатами, коли я закінчу, але нічого нового я вигадувати не буду. Поки що я просто планую порівняти ІМ у дворівневій моделі імпутації (панель R пакетів) до ІМ за простою звичайною моделлю (ігноруючи дворівневу структуру, норму пакету R) та видаливши за списком. За різних розмірів вибірки, значень дисперсійного компонента тощо. Цього повинно бути достатньо для семінару (я докторант), але не зовсім новаторським. Якщо у вас є ідеї про те, як «підняти на джаз» симуляційне дослідження, я хотів би почути.
Рок

1
Ще одне: я не впевнений, що правильне аналітичне рішення цієї проблеми навіть існує. Я переглянув деяку додаткову літературу, але ця проблема вишукано переглядається скрізь. Я також помітив, що yucel & demirtas (у статті, яку я згадував, стор. 798) пишуть: "Ці множинні імпультовані набори даних використовувались для оцінки моделі [...], використовуючи пакет Rme lme4, що веде до 10 наборів (beta, se (beta)) ), (sigma_b, se (sigma_b)), які потім були об'єднані, використовуючи правила поєднання ІМ, визначені Рубіном ".
Рок

Здається, вони використали якийсь ярлик для оцінки СЕ дисперсійної складової (що, звичайно, недоцільно, оскільки КІ асиметричний), а потім застосували класичну формулу.
Рок

Гаразд, thx для цього. Чи можете ви поставити свої коментарі у відповідь, щоб за неї можна було проголосувати?
chl

Відповіді:


8

Це чудове запитання! Не впевнений, що це повна відповідь, однак я відкидаю ці кілька рядків на випадок, якщо це допоможе.

Схоже, що Юсель і Деміртас (2010) посилаються на старішу статтю, опубліковану в JCGS, Обчислювальні стратегії для багатоваріантних лінійних моделей зі змішаними ефектами з відсутніми значеннями , яка використовує гібридний підхід балу ЕМ / Фішера для створення оцінок на основі ймовірності VC . Він реалізований у пакеті Rmmmmm . Я не знаю, однак, чи він виробляє CI.

В іншому випадку я б точно перевірив програму WinBUGS , яка в значній мірі використовується для багаторівневих моделей, у тому числі з відсутніми даними. Я, мабуть, пам’ятаю, що це спрацює, лише якщо ваш MV знаходиться у змінній відповіді, а не в коваріатах, оскільки ми, як правило, мусимо вказати повні умовні розподіли (якщо MV присутній у незалежних змінних, це означає, що ми мусимо надати попередній відсутні Xs, і це буде вважатися параметром, який слід оцінити WinBUGS ...). Здається, це стосується і R, якщо я посилаюсь на наступний потік на r-sig-змішаних, відсутніх даних у lme, lmer, PROC MIXED . Крім того, можливо, варто переглянути програмне забезпечення MLwiN .


Дякую за вашу відповідь! В принципі, я також зацікавлений у тому, як вирішити конкретну проблему, на зразок описаної мною (тому дякую за пораду WinBUGS). Але на даний момент я намагаюся зробити імітаційне дослідження для семінарського доповіді, в якому я би вивчив ефективність (ступінь покриття тощо) МІ за неправильним визначенням моделі. Я думаю, я просто забуду про компоненти дисперсії, якщо не можу знайти рішення та зосередитися на фіксованих ефектах, але відмовлятись від цього страшно.
Рок

@Rok Чудова ідея для моделювання! Я з нетерпінням чекаю цього конкретного питання. Я думаю, ви вже шукаєте по змішаній розсилці r-sig та книзі Гельмана про багаторівневу регресію ...
chl

Я дивився зараз, танки для довідок! На жаль, в MI-змішаних архівах немає нічого про MI; і Гельман дає лише основну формулу про те, як поєднувати умовиводи з ІМ, коли ми маємо відмінність між наведеними імпутаціями та між ними (§25.7).
Рок

6

Повторний коментар зверху:

Я не впевнений, що правильне аналітичне рішення цієї проблеми навіть існує. Я переглянув деяку додаткову літературу, але цю проблему повсюдно оглядають. Я також помітив, що Юсель і Деміртас (у статті, яку я згадував, сторінка 798) пишуть:

Ці lme4множинні імпультовані набори даних були використані для оцінки моделі […], використовуючи пакет R, що веде до 10 наборів (бета, se (бета)), (sigma_b, se (sigma_b)), які потім були об'єднані, використовуючи правила комбінування MI, визначені Рубін.

Здається, вони використали якийсь ярлик для оцінки СЕ дисперсійної складової (що, звичайно, недоцільно, оскільки КІ асиметричний), а потім застосували класичну формулу.


Дякую, що ти повернувся, щоб поділитися своїм досвідом з цією проблемою. На жаль, у мене немає реального рішення, але, можливо, з’являться інші пропозиції.
chl

"Елегантний вигляд" ... це корисна фраза для перегляду літератури, якщо я коли-небудь чув її.
Метт Паркер

3

Відмова: Ця ідея може бути дурною, і я не збираюся робити вигляд, що розумію теоретичні наслідки того, що я пропоную.

" Пропозиція " : Чому ви просто не призначите 100 (я знаю, у вас зазвичай 5) наборів даних, запустіть lme4 або nmle, отримайте довірчі інтервали (у вас їх 100), а потім:

Використовуючи невелику ширину інтервалу (скажімо, діапазон / 1000 чи щось), протестуйте діапазон можливих значень кожного параметра та включіть лише ті невеликі інтервали, які відображаються принаймні 95 із 100 CI. Тоді у вас буде "середнє" Монте-Карло ваших інтервалів довіри.

Я впевнений, що з цим підходом є проблеми (або, можливо, теоретичні проблеми). Наприклад, у вас може виникнути набір розрізнених інтервалів. Це може бути або не бути поганим, залежно від вашої галузі. Зауважте, що це можливо лише в тому випадку, якщо у вас є щонайменше два повністю неперекриваються довірчі інтервали, які розділені областю з покриттям менше 95%.

Ви також можете розглянути щось ближче до байєсівського трактування зниклих даних, щоб отримати задній надійний регіон, який , безумовно, буде краще сформований і більш теоретично підтримується, ніж моя спеціальна пропозиція.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.