Узагальнені лінійні змішані моделі: вибір моделі


10

Це питання / тема з'явилася під час обговорення з колегою, і я шукав деякі думки з цього приводу:

Я моделюю деякі дані за допомогою логістичної регресії випадкових ефектів, точніше випадкової логістичної регресії. Для фіксованих ефектів у мене є 9 змінних, які представляють інтерес і враховуються. Я хотів би зробити якийсь вибір моделі, щоб знайти значущі змінні та дати “найкращу” модель (лише основні ефекти).

Моя перша ідея полягала в тому, щоб використовувати AIC для порівняння різних моделей, але з 9 змінними я не надто хвилював порівняння 2 ^ 9 = 512 різних моделей (ключове слово: днопоглинання даних).

Я обговорював це з колегою, і він сказав мені, що пам’ятав, що читав про використання поетапного (або вперед) вибору моделі з GLMM. Але замість використання p-значення (наприклад, на основі тесту на коефіцієнт ймовірності для GLMM), слід використовувати AIC як критерій входу / виходу.

Я вважав цю ідею дуже цікавою, але не знайшов жодних посилань, які б далі обговорювали це, і мій колега не пам’ятав, де він її читав. Багато книг пропонують використовувати AIC для порівняння моделей, але я не знайшов жодної дискусії щодо використання цього методу разом із покроковою чи вперед процедурою вибору моделі.

Тож у мене є два питання:

  1. Чи є щось не так у використанні АПК у процедурі вибору моделі поетапної моделі як критерію входу / виходу? Якщо так, яка б була альтернатива?

  2. Чи є у вас посилання, які обговорюють вищевказану процедуру (також як посилання на підсумковий звіт?

Найкраще,

Емілія


3
Поетапний вибір моделі - це стільки ж драгування даних, скільки повного вибору підмножини (він фактично намагається знайти приблизно те саме рішення за набагато менший час). Вибір на основі AIC - це також драгування даних.
Майкл М

Відповіді:


8

Поетапний вибір неправильний у багаторівневих моделях з тих же причин, він неправильний у "регулярній" регресії: значення p буде занадто низьким, стандартні помилки занадто малі, параметр оцінюється упереджено від 0 тощо. Найголовніше, він заперечує вас можливість думати.

9 IV не так вже й багато. Чому ви вибрали ці 9? Звичайно, у вас була причина.

Перше, що потрібно зробити, - це переглянути багато сюжетів; які точні з них трохи залежать від того, чи ваші дані є поздовжніми (у цьому випадку графіки з часом на осі x часто корисні) чи кластеризовані. Але обов'язково подивіться на зв’язки між 9 IV та вашим DV (сюжети паралельних коробок - одна проста можливість).

Ідеальним було б побудувати декілька моделей на основі змістовного сенсу та порівняти їх за допомогою AIC, BIC чи іншої міри. Але не дивуйтеся, якщо жодна конкретна модель не вийде найкращою. Ви не кажете, в якому полі працюєте, але в багатьох (більшості?) Сферах природа є складною. Кілька моделей можуть відповідати однаково добре, а інша модель може краще підходити для іншого набору даних (навіть якщо обидві є випадковими вибірками з однієї сукупності).

Що стосується посилань - на нелінійних змішаних моделях є багато хороших книг. Яке з них найкраще залежить від а) Яке поле ви знаходитесь в) Який характер даних в) Яке програмне забезпечення ви використовуєте.

Відповідаючи на ваш коментар

  1. Якщо всі 9 змінних є науково важливими, я б хоча б розглядав можливість включення їх у всі. Якщо змінна, яку всі вважають важливою, закінчується, маючи малий ефект, це цікаво.

  2. Звичайно, побудуйте всі ваші змінні в часі та різними способами.

  3. Що стосується загальних питань щодо поздовжніх багаторівневих моделей, мені подобаються Hedeker і Gibbons ; для нелінійних поздовжніх моделей в SAS мені подобаються Моленбергс і Вербеке . Сама документація SAS (для PROC GLIMMIX) також дає вказівки.


У цьому дослідженні випробовувані піддаються різним комбінаціям наркотиків та фізичних вправ з часом, а результатом інтересу є наявність певного стану дихання (так / ні). Пацієнтів вимірюють повторно кожні 2 тижні протягом 6 місяців. Щодо програмного забезпечення, я використовую SAS та R. 9 IV, де обирає слідчий через їх наукове значення.
Емілія

Перевірка даних так само погана, якщо не гірша, ніж використання алгоритмічного вибору моделі. Причина полягає в тому, що вибір алгоритмічної моделі добре зрозумілий і потенційно може бути скоригований; перегляд даних та використання суб'єктивного судження - це процес, який неможливо повторити чи коригувати. У будь-якому випадку я б уникав вибору моделі, оскільки вибір моделі недійсний. Оскільки тут всього 9 коваріатів, я вважаю, що найкраща порада - це працювати з повною моделлю або з моделлю, обраною лише на основі речовини.
користувач3903581

3

Вибір моделі можна краще здійснити за допомогою методів усадки, таких як LASSO. Покрокові методи занадто ліберальні. Виправдання можна знайти на веб-сторінці Тібшірані. Якщо ви використовуєте R, існує пакет, glmmLassoякий називається, що дозволяє вибирати моделі в узагальнених моделях лінійних змішаних ефектів, використовуючи метод усадки LASSO.


1

Хорошим орієнтиром для змішаного вибору моделі на основі AIC в R (також добре для манекенів) буде Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.