Багаторазова імпутація та вибір моделі


21

Множинна імпутація є досить простою, коли у вас є апріорна лінійна модель, яку ви хочете оцінити. Однак справи здаються дещо складнішими, коли ви насправді хочете зробити якийсь вибір моделі (наприклад, знайти "найкращий" набір змінних прогнозів з більшого набору змінних кандидатів - я маю на увазі конкретно LASSO та дробові поліноми, що використовують R).

Однією з ідей було б встановити модель у вихідні дані з відсутніми значеннями, а потім переоцінити цю модель у наборах даних MI та поєднати оцінки, як зазвичай. Однак це здається проблематичним, оскільки ви очікуєте упередженості (інакше чому МІ в першу чергу?), Що може призвести до вибору "неправильної" моделі з самого початку.

Іншою ідеєю було б пройти будь-який процес вибору моделі, який ви використовуєте у кожному наборі даних MI - але як би ви потім поєднали результати, якщо вони включають різні набори змінних?

Я вважав, що скласти набір наборів даних MI та проаналізувати їх як один великий набір даних, який ви потім використаєте для встановлення єдиної "найкращої" моделі та включити випадковий ефект для врахування того факту, для якого ви використовуєте повторні заходи для кожне спостереження.

Це звучить розумно? Чи, можливо, неймовірно наївно? Будь-які вказівки щодо цього питання (вибір моделі з багаторазовою імпутацією) були б дуже вдячні.


2
Відредагуйте цю публікацію, щоб змінити "примірку моделі" на "вибір моделі". Було б також корисно обговорити, який метод ви використовуєте. Наприклад, якщо використовується поетапний вибір моделі на основі p-значень, то укладання імпульованих даних абсолютно НЕ дозволено. Ви можете намалювати респіратори завантажувальних даних ваших даних, включаючи відсутні дані, застосувати MI та наступний процес вибору моделі та обчислити точне "p-значення" для вибраної моделі.
АдамО

У другому абзаці, чому ви вважаєте, що цей метод пропускає точку багаторазової імпутації? Також яке програмне забезпечення ви використовуєте?
Пітер Флом - Відновіть Моніку

Відповіді:


10

Ви можете зробити багато речей, щоб вибрати змінні з множини введених даних, але не всі дають відповідні оцінки. Див. Wood et al (2008) Stat Med для порівняння різних можливостей.

Наступна двоетапна процедура виявилася корисною на практиці.

  1. Застосовуйте бажаний спосіб вибору змінної незалежно до кожного з імпутованих наборів даних. Ви закінчите різних моделей. Для кожної змінної підраховуйте кількість разів, коли вона відображається в моделі. Виберіть ті змінні, які відображаються принаймні в половині моделей.м мммм
  2. Використовуйте p-значення статистики Wald або тесту на коефіцієнт ймовірності, обчислене з множинних імпульсних наборів даних, як критерій для подальшого поетапного вибору моделі.м

Крок 1 попереднього вибору включений для зменшення кількості обчислень. Див http://www.stefvanbuuren.nl/mi/FIMDmaterials/src/fimd6.r.txt (розділ 6.4.2) для прикладу коду двоетапного методу в R з використанням mice(). У Stata ви можете виконати крок 2 (для всіх змінних) за допомогою mim:stepwise.


Стеф, включіть посилання на публікацію Stat Med. Я також спробував трохи прикрасити вашу відповідь.
Стаск

1
Запропонований режим може мати сенс лише тоді, коли ви виберете заздалегідь заданий набір регресорів. Але якщо я вирішу сказати квадратичну тенденцію, 5- і 9-вузлові B-шліци, і це може бути КАРТА, я не знаю, як застосувати цю пропозицію.
Стаск

Стас, процедура передбачає, що модель імпутації правильна. Зокрема, метод імпутації повинен адекватно фіксувати всі функції в даних, які можуть бути зацікавлені згодом. Отже, якщо ви хочете включити квадратичні терміни або B-сплайни в свій аналіз повних даних, то модель імпутації повинна бути встановлена ​​таким чином, щоб ці функції зберігалися в імпутованих даних (Примітка: цього насправді може бути важко досягти , але це тема сама по собі). З огляду на те, що модель імпутації вказана правильно, я б сказав, що застосовується двоетапна процедура вибору.
Стеф ван Буурен

Ну, то в основному модель імпутації повинна бути найбагатшою можливою моделлю. Я зіткнувся з ситуаціями, коли це не зовсім виходить, як ідеальні прогнози в перепараметризованих логістичних моделях.
Стаск

Домовились. Вам доведеться імпульсувати під найбагатшою можливою моделлю. Отже, спочатку визначте найскладніші аналізи, які ви хотіли б зробити, і пристосуйте модель імпутації до цього. Це може бути важко досягти на практиці, і стає складніше у міру зростання складності моделі повних даних. Безкоштовного обіду немає. Ідеальне передбачення в логістичній регресії вирішено різними способами, і не потрібно представляти серйозного каменя спотикання.
Стеф ван Буурен

4

Це просто: Ви можете застосувати стандартні правила поєднання ІМ, але ефекти змінних, які не підтримуються в наборі набору даних, будуть менш вираженими. Наприклад, якщо змінна не обрана в конкретному імпутованому наборі даних, її оцінка (включаючи дисперсію) дорівнює нулю, і це має бути відображено в оцінках, що використовуються при використанні декількох імпутацій. Ви можете розглянути можливість завантаження даних для побудови інтервалів довіри для включення невизначеності вибору моделі, ознайомтеся з цією недавньою публікацією, яка стосується всіх питань: http://www.sciencedirect.com/science/article/pii/S016794731300073X

Я б уникнув використання прагматичних підходів, таких як вибір змінної, якщо вона вибрана в наборах даних m / 2 або подібних, тому що висновок не є зрозумілим і складнішим, ніж це здається на перший погляд.


3

У мене була така ж проблема.

Моїм вибором було так зване "багаторазове імпутаційне ласо". По суті, він поєднує всі набір імпульованих наборів даних разом і приймає концепцію групового ласо: кожна кандидатська змінна генерує m фіктивних змінних. Кожна фіктивна змінна відповідає імпульованому набору даних.

Потім всі m мінливі змінні групуються. ви б або відкинули m манекен-змінних змінних кандидатів у всіх імпутованих наборах даних або зберегли їх у всіх імпутованих наборах даних.

Таким чином, регресія ласо насправді підходить для всіх імпутованих наборів даних спільно.

Перевірте папір :

Chen, Q. & Wang, S. (2013). "Варіабельний вибір для множинно введених даних із застосуванням до дослідження впливу діоксину", "Статистика в медицині", 32: 3646-59.

І відповідна програма R


Я думаю, що я насправді написав вам про це пару років тому :)
DL Dahly

1

Я зіткнувся з подібною проблемою - у мене є набір даних, в якому я з самого початку знав, що хочу включити всі змінні (мене цікавили коефіцієнти більше, ніж прогноз), але я не знав апріорі, які взаємодії слід вказати.

Мій підхід полягав у тому, щоб виписати набір моделей-кандидатів, виконати декілька імпутацій, оцінити декілька моделей, а також просто зберегти та оцінити AIC з кожної моделі. Вибрано специфікацію моделі з найнижчим середнім показником AIC.

Я думав над тим, щоб додати корекцію, в якій я покараю різницю між імпутацією в АПК. Однак на роздумах це здавалося безглуздим.

Підхід мені здався досить простим, але я сам його вигадав, і я не відомий статистик. Перш ніж скористатися ним, ви можете зачекати, поки люди або виправлять мене (що буде вітатися!), Або підтвердять цю відповідь.


Дякую за відповідь. На жаль, те, що мене дійсно цікавить, - це використовувати більш автоматизовані / дослідницькі методи вибору моделі, які не піддаються спочатку вибору розумного набору моделей-кандидатів.
DL Dahly
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.