Багаторазова імпутація змінних результатів


19

У мене є набір даних про випробування на сільському господарстві. Моя змінна відповідь - це коефіцієнт відповіді: log (обробка / контроль). Мене цікавить, що опосередковує різницю, тому я виконую метарегресії RE (не зважені, тому що видається досить зрозумілим, що розмір ефекту не співвідноситься з відхиленням оцінок).

Кожне дослідження повідомляє про урожай зерна, урожай біомаси або те і інше. Я не можу приписати врожай зерна лише в дослідженнях, в яких повідомляється про урожай біомаси, тому що не всі досліджені рослини були корисними для зерна (наприклад, цукровий очерет). Але кожна рослина, яка виробляла зерно, також мала біомасу.

Для відсутніх коваріатів я використовував ітераційну регресійну імпутацію (слідкуючи за підручником Ендрю Гелмана). Це ніби дає розумні результати, і весь процес взагалі інтуїтивно зрозумілий. В основному я прогнозую пропущені значення і використовую ці передбачувані значення для прогнозування відсутніх значень, і переглядаю кожну змінну до тих пір, поки кожна змінна приблизно не зблизиться (у розподілі).

Чи є якась причина, чому я не можу використовувати один і той же процес для імпулювання відсутніх результатів? Я, мабуть, можу сформувати порівняно інформативну модель імпутації щодо співвідношення відгуку на біомасу з урахуванням коефіцієнта відгуку зерна, типу врожаю та інших коваріатів, які у мене є. Тоді я б середній коефіцієнт і VCV, і додати корекцію ІМ, як у стандартній практиці.

Але чим вимірюються ці коефіцієнти, коли самі результати отримані? Чи трактування коефіцієнтів відрізняється від стандартного ІМ для коваріатів? Думаючи про це, я не можу переконати себе, що це не працює, але я не дуже впевнений. Думки та пропозиції щодо читання матеріалу вітаються.


Я не отримав відповіді, але одне запитання та дві примітки: 1) журнал співвідношення - це, звичайно, різниця журналів. Тож ваш DV еквівалентний log (обробка) - log (контроль). 2) Який підручник Гельмана ви дивилися?
Пітер Флом - Відновіть Моніку

Так, DV еквівалентний log (обробка) -log (контроль). Я грунтуюся на ітераційній регресійній імпутації на (нетехнічній) главі про відсутні дані, які Gelman
generic_user

Мені сказали, що введення результату призводить до помилки в Монте-Карло. Спробуємо знайти посилання пізніше. Не забувайте, що вам потрібно обов'язково включити результат у моделі імпутації для коваріатів.
DL Dahly

Відповіді:


20

Як ви підозрювали, для вимірювання результатів справедливо використовувати багаторазову імпутацію. Бувають випадки, коли це корисно, але це також може бути ризиковано. Я вважаю ситуацію, коли всі коваріати завершені, а результат - неповний.

Якщо модель імпутації правильна, ми отримаємо дійсні умовиводи щодо оцінок параметрів із введених даних. Висновки, отримані лише із повних випадків, можуть насправді помилятися, якщо відсутність пов'язана з результатом після кондиціонування на прогнокторі, тобто за MNAR. Тому імпутація корисна, якщо ми знаємо (або підозрюємо), що дані є MNAR.

Відповідно до MAR, зазвичай немає переваг для заміщення результату, а для низької кількості імпутацій результати можуть бути навіть дещо більш змінними через помилку моделювання. З цього є важливий виняток. Якщо ми маємо доступ до допоміжної повної змінної, яка не є частиною моделі, і вона сильно корелює з результатом, імпутація може бути значно ефективнішою, ніж повний аналіз випадку, в результаті чого більш точні оцінки та більш короткі інтервали довіри. Загальний сценарій, коли це відбувається, це якщо у нас є дешевий захід для всіх, а дорогий - для підмножини.

У багатьох наборах даних відсутні дані також зустрічаються в незалежних змінних. У цих випадках нам потрібно присвоїти змінну результату, оскільки її імпульована версія необхідна для імпультування незалежних змінних.


Дякую, це відповідає моїй інтуїції, але ви могли б поділитися посиланням на добре зроблене опубліковане дослідження, яке присвоює залежні змінні? Однією з головних причин, через яку я хочу приписати результати, є збільшення розміру вибірки (приблизно з 250 до приблизно 450), щоб полегшити умови взаємодії напівпараметричного тензорного продукту в GAM, які мають дуже високі вимоги df (перш ніж вони отримують пенальний, опускаючи edf). MAR в моєму випадку розумний.
generic_user

1
Для ANOVA широко застосовується збалансований дизайн. Дивіться вступ RJA Little, регресія з пропущеними X, JASA 1992. Я вважаю, що ви знаєте, що збільшення розміру вибірки таким чином не допомагає отримати більш точні оцінки. Що стосується допоміжних змінних, прочитайте розділ про надзвичайну ефективність у DB Rubin, Множинна імпутація після 18+ років, JASA 1996.
Стеф ван Бурен

1
"Відповідно до MAR, зазвичай немає переваг для заміни результату" - я вже бачив це, про що говорилося раніше, але я не маю жодної посилання на нього - чи можете ви надати його, будь ласка?
Роберт Лонг

Думаю, ви можете процитувати для цього маленький tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 , але врахуйте винятки.
Стеф ван Бурен

1
@StefvanBuuren - корисна відповідь здебільшого, але я розумію, що "якщо ми знаємо (або підозрюємо), що дані є MNAR", то імпутація не може вирішити наші проблеми більш ніж повний аналіз випадків. Здається, це потрапляє до категорії "без безкоштовного обіду".
rolando2

2

Імітація даних про результати є дуже поширеною і призводить до правильного висновку при обліку випадкової помилки.

Це здається, що те, що ви робите, - це одна імпутація, шляхом введення пропущених значень умовним середнім під час повного аналізу випадку. Те, що вам слід зробити, - це багаторазова імпутація, яка при безперервних коваріатах ​​пояснює випадкову помилку, яку ви могли б помітити, якби ви заднім числом вимірювали ці пропущені значення. Алгоритм ЕМ працює аналогічно, усереднюючи діапазон можливих спостережуваних результатів.

Одномісна імпутація дає правильну оцінку параметрів моделі, коли немає середньо-різницевого співвідношення, але вона дає стандартні оцінки помилок, які зміщуються до нуля, завищуючи коефіцієнти помилок типу I. Це тому, що ви були «оптимістичні» щодо ступеня помилки, яку б ви помітили, якби ви вимірювали ці фактори.

Множинна імпутація - це процес ітераційного генерування додаткової помилки для умовної середньої імпутації, завдяки чому через 7 або 8 імітованих імітацій можна комбінувати моделі та їх помилки, щоб отримати правильні оцінки параметрів моделі та їх стандартних помилок. Якщо у вас спільно відсутні коваріати та результати, то в SAS, STATA та R є програмне забезпечення, що називається багаторазовою імпутацією за допомогою ланцюгових рівнянь, де генеруються "завершені" набори даних (набори даних з імпутованими значеннями, які трактуються як фіксовані та невипадкові), модель параметри, оцінені з кожного повного набору даних, та їх оцінки параметрів та стандартні помилки, поєднані з використанням правильної математичної формації (детальніше у статті Ван Бурена).

Незначна різниця між процесом в ІМ та описаним вами процесом полягає в тому, що ви не врахували того факту, що оцінка умовного розподілу результату за допомогою імпутованих даних буде залежати від того, в якому порядку ви вводите певні фактори. Ви мали б оцінити умовний розподіл відсутнього зумовленого коваріату за результатом в ІМ, інакше ви отримаєте упереджені оцінки параметрів.


Спасибі. По-перше, я програмую все з нуля в R, не використовуючи MICE або MI. По-друге, я маю на увазі малюнки (модельованого) прогнозного розподілу, а не просто умовні очікування. Це те, про що ви говорите в другому абзаці? Якщо ні, я буду вдячний за пояснення. Також, про який папір Royston ви маєте на увазі? Останнє - ви говорите щось складніше, ніж "ви повинні помістити залежну змінну в модель імпутації"? Якщо так, то я дуже вдячний роз'ясненням.
generic_user

Нарешті - я не роблю одинарної імпутації. Я підганяю 30 моделей із заповненими даними та використовую формулу B_ W = (1 + 1 / м) B від Rubin.
generic_user

Папір Ройстона був гіперпосиланнями. Я насправді мав на меті зв’язати Ван Бурена з тим, хто реалізував програму на R та включає обчислювальні дані: doc.utwente.nl/78938 MICE / MI - це процес. Якщо ви вводите текст на основі домашнього коду, вам слід детальніше зупинитися на деталях. Умовне значення = передбачувані значення, якщо модель правильна (або приблизно так, необхідне припущення). Це складніше, ніж "додати результат", це те, що ви нав'язуєте декілька відсутніх шаблонів (принаймні 3, відсутні коваріат / результат / спільно відсутні).
AdamO

Якщо ви однозначно вводите прогнозоване значення в 30 разів, ви повинні отримувати однакові результати в 30 разів. Як ви оцінюєте помилку?
АдамО

Це досить простий алгоритм - скажімо, я спостерігаю a, b, c і d з деякою відсутністю. Я заповнюю всі чотири випадковими малюнками (із заміною) із спостережуваних значень. Тоді я моделюю imp = lm (a ~ b * + c * + d *), де * вказує заповнене, а потім x = передбачити (imp, se.fit = TRUE), y = rnorm (N, impfiт,iмpse.fit). Тоді я роблю a * = y, а потім виконую imp = lm (b ~ a * + c * + d *), прогнозую так само і так далі. Я перебираю весь набір змінних 50 разів. Це все з тієї глави підручника Ендрю Гелмана, яку я зв'язав вище, і це також, чому я не отримую однакового результату щоразу.
generic_user
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.