GEE: вибір правильної робочої кореляційної структури


19

Я епідеміолог, який намагається зрозуміти ГЕЗ, щоб належним чином проаналізувати когортне дослідження (використовуючи регресію Пуассона з посиланням на журнал, оцінити відносний ризик). У мене є кілька запитань про "робочу кореляцію", яку я хотів би, щоб хтось більш обізнаний уточнив:

(1) Якщо я повторював вимірювання у однієї особи, як правило, найбільш розумним вважати обмінну структуру? (Або авторегресивно, якщо вимірювання показують тенденцію)? А як щодо незалежності - чи є випадки, коли можна було б вважати незалежність для вимірювань у однієї особи?

(2) Чи існує якийсь (досить простий) спосіб оцінити належну структуру шляхом вивчення даних?

(3) Я помітив, що, вибираючи структуру незалежності, я отримую ті ж оцінки балів (але нижчі стандартні помилки), як при виконанні простої регресії Пуассона (використовуючи R, функцію glm()та geeglm()пакет geepack). Чому це відбувається? Я розумію, що за допомогою GEE ви оцінюєте модель усередненої популяції (на відміну від конкретної тематики), тому ви повинні отримувати однакові бальні оцінки лише у випадку лінійної регресії.

(4) Якщо моя когорта знаходиться на декількох місцях розташування (але одне вимірювання на особу), чи слід вибрати незалежність або обмінним робочим співвідношенням, і чому? Я маю на увазі, що люди на кожному сайті все ще незалежні один від одного, правда ?? Таким чином, для предметної моделі, наприклад, я б вказав сайт як випадковий ефект. Однак, якщо GEE, незалежність та обмінні дані дають різні оцінки, і я не впевнений, що краще з точки зору основних припущень.

(5) Чи може GEE обробляти дворівневу ієрархічну кластеризацію, тобто багатокористувацьку когорту з повторними заходами на особу? Якщо так, то що мені слід вказати як змінну кластеризації в geeglm()і якою має бути робоча кореляція, якщо передбачається, наприклад, "незалежність" для першого рівня (сайту) та "обмінний" або "авторегресивний" для другого рівня (індивідуальний)?

Я розумію, що це досить багато питань, і деякі з них можуть бути досить елементарними, але все ще дуже важкі для мене (а може бути, і новачки?). Отже, будь-яка допомога високо і щиро цінується, і щоб показати це, я почав щедро.

Відповіді:


12
  1. Не обов'язково. З невеликими кластерами, незбалансованим дизайном та неповним пристосуванням для налаштування кластера обмінна кореляція може бути більш неефективною та упередженою відносною, ніж незалежність GEE. Ці припущення теж можуть бути досить сильними. Однак, коли ці припущення виконуються, ви отримуєте більш ефективний висновок щодо обмінних даних. Я ніколи не знаходив приклад, коли кореляційні структури AR-1 мають сенс, оскільки рідко є вимірювання, які врівноважуються у часі (я працюю з даними людей).

  2. Що ж, дослідження кореляції добре, і це потрібно робити в аналізі даних. Однак це дійсно не повинно керувати прийняттям рішень. Можна використовувати варіограми та лореллограми для візуалізації кореляції при поздовжніх та панельних дослідженнях. Внутрішньокластерна кореляція є хорошим вимірюванням ступеня кореляції в кластерах.

  3. Кореляційна структура в GEE, на відміну від змішаних моделей, не впливає на граничні оцінки параметрів (які ви оцінюєте за допомогою GEE). Однак це впливає на стандартні оцінки помилок. Це не залежить від будь-якої функції зв'язку. Функція зв'язку в GEE призначена для граничної моделі.

  4. Сайти можуть бути джерелами незмірних варіацій, наприклад, зубами в роті або учнями в шкільному окрузі. У цих даних є потенціал для плутанини на рівні кластерів, таких як генетична схильність до руйнування зубів або фінансування освіти громади, тому з цієї причини ви отримаєте кращі стандартні оцінки помилок, використовуючи змінну кореляційну структуру.

  5. Розрахунок граничних ефектів в GEE є складним, коли вони не вкладені, але це можна зробити . Гніздування легко, і ви робите так, як ви сказали.


(Що стосується №5) Тож у разі вкладеної кластеризації вибирається просто змінна кластерна верхня рівня, і це все?
Теодор Літрас

Ні, ви можете створити ієрархічну дворівневу змінну кореляційну структуру та послідовно оцінювати два окремих параметри кореляції для кореляції за допомогою 3-ступінкового алгоритму ЕМ. Таким чином, ви могли б знати, що діти в громадах співвідносяться, але не так співвідносяться, як діти в домашньому господарстві.
АдамО

Вибачте, я цього не розумію. Не могли б ви вказати мені якийсь код, бажано на R або Stata? Я думаю, це повинно допомогти.
Теодор Літрас

1
@TheodoreLytras вибачте, я помилився. Ваше попереднє твердження правильне. З тієї самої статті, яку я зв'язав, "Крім того, якщо кілька кластерів ідеально вкладені, кластеризація GEE на кластері верхнього рівня обліковує багаторівневу кореляційну структуру через оцінювач дисперсії сендвіч".
АдамО

1
Можливо, ви маєте на увазі щось інше, але коли ви заявляєте, що "Кореляційна структура в GEE, на відміну від змішаних моделей, не впливає на граничні оцінки параметрів", я думаю, це неправда. Принаймні, якщо ви маєте на увазі, що коефіцієнти не змінюються, вибираючи іншу робочу матрицю кореляції, це відбувається не так: кореляційна матриця працює через вагову матрицю і впливає на матрицю коваріації, а також на коефіцієнти.
Нік

6

(1) Вам, швидше за все, потрібна якась авторегресивна структура, просто тому, що ми очікуємо, що вимірювання, зроблені далі, будуть менш співвіднесеними, ніж ті, що взяті ближче один до одного. Обмінним припускається, що всі вони однаково співвідносяться. Але як і у всьому іншому, це залежить.

(2) Я думаю, що таке рішення зводиться до роздумів про те, як генеруються дані, а не про те, як вони виглядають.

(4) це залежить. Наприклад, діти, які вкладаються в школи, в більшості випадків не повинні розглядатися як самостійні. Через соціальне малювання тощо, якщо я знаю щось про дитину в певній школі, то, мабуть, я знаю хоча б трохи про інших дітей у школах. Я колись використовував GEE, щоб переглянути відносини між різними соціальними та економічними показниками та поширеністю ожиріння в народжувальній когорті, де учасники вклалися у мікрорайони. Я використовував обмінну структуру. Ви можете знайти документ тут і перевірити деякі посилання, в тому числі 2 з журналів epi.

(5) Мабуть, так (наприклад, див. Цей приклад ), але я не можу допомогти з R-особливостями цього зробити.

Zeger SL, Liang KY, Albert PS. Моделі поздовжніх даних: узагальнений підхід до оцінювання рівнянь. Біометрика. 1988; 44: 1049–60.

Хаббард А. Е., Ахерн Дж., Флейшер Н, ван дер Лаан М, Ліппман С, Брукнер Т, Сатаріано В. З GEE чи ні з GEE: порівняння оціночної функції та методів, заснованих на ймовірності, для оцінки асоціацій між мікрорайонами та здоров'ям. Епідеміологія. 2009 рік

Hanley JA, Negassa A, Edwardes MDB, Forrester JE. Статистичний аналіз корельованих даних за допомогою узагальнених оціночних рівнянь: орієнтація. Am J Епідеміол. 2003; 157: 364.


Це справді корисно, але мене змушує замислитися, чому хтось тоді використовував би структуру незалежності, оскільки кластеризація сама по собі передбачає певну схожість спостережень. Однак я маю враження, що у випадку зі школою схожість по відношенню до інших шкіл , і в межах кожної школи учні були б незалежними. Тому я все ще не дуже зрозумілий з цього приводу.
Теодор Літрас

Так, якщо ви обмежили моделювання зразків та підрядчиків однією школою, не хвилюйтесь. У цьому випадку було б більш виправдано припустити, що помилки є iid. Але як тільки ви почнете поєднувати дітей з різних шкіл в один і той же зразок / модель, це припущення стає десятирічним, якщо ви не враховуєте школу за моделлю, тобто таким чином, щоб помилки, обумовлені школою, були припущені в iid.
DL Dahly

Варто також зазначити, що люди можуть бути вам кориснішими, якщо ви можете надати деякі деталі щодо розміру вибірки, кількості та термінів повторних заходів, кількості кластерів тощо.
DL Dahly

2
@DLDahly ваш пункт (1) - це не те, що я часто зустрічаю в біостатистичних панельних аналізах. Одне з припущень, що стоїть між кореляційними структурами AR-N, полягає в тому, що, враховуючи достатньо часу між ними, два вимірювання одного і того ж індивіда будуть настільки ж некорельованими, як два вимірювання між різними особинами. Однак основні конфундери між кластером часто не змінюються за часом коваріатів (наприклад, генетичних маркерів), і припустити, що інакше дуже складно (якщо не неможливо) оцінити. Хоча лоррелограма - це дуже гарне місце для початку.
АдамО

1

(0) Загальні коментарі: більшість моделей, які я бачу на перекваліфікованих, занадто складні. Спростіть, якщо це взагалі можливо. Для порівняння результатів часто варто моделювати з GEE та змішаною моделлю.
(1) Так. Виберіть обмінний. Моя однозначна відповідь заснована на найбільш широко розрекламованій перевазі GEE: стійкості оцінок до зроблених припущень.
Якщо ви подивитесь на дослідження у вашій галузі, ви повинні побачити, що exch - це варіант за замовчуванням. Це не означає, що це найкраще, але слід першим розглянути. Консультування екша буде найкращим порадою без детального знання ваших даних.
(2) Так, є підходи, керовані даними, такі як "QIC". Це приклад Stata, але широко прийнятий як розумний варіант, хоча дуже рідко використовується на практиці:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Оцінки балів ніколи не є абсолютно однаковими (якщо ви не використовуєте структуру кореляції indep), але зазвичай досить близькі. Ви можете знайти багато статей, де порівнюються прості оцінки / моделі моделей / змішаних ефектів, щоб відчути це ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ) Більшість підручників також мають таблицю або два для цього. Для незалежної структури кореляції ви по суті керуєте моделлю Пуассона з надійними SE. Тож оцінки будуть точно однаковими. ПП зазвичай більші. Але іноді надійні SE є меншими (тобто життя: Google із наданням пояснень, якщо це цікаво)
(4) Див. (1) та (2) вище.
(5) Ні. Або, краще сказати, ви можете зробити що завгодно, якщо докладете достатньо зусиль, але дуже рідко варто докласти зусиль.


0

Ви використовуєте неправильний підхід з джитом, щоб робити те, що ви робите, тому що ви не знаєте структури, і ваші результати будуть, ймовірно, заплутані. Про це зверніться до Джеймі Робінсона. Використовувати потрібно довго. TMLE (марка van der laan) або, можливо, джи з вагами iptw. Якщо облік кореляції не занижує розбіжність. Подумайте, якби всі повторювані заходи були на 100% корельованими, тоді ви ефективно мали б менше спостережень (фактично лише n для ваших n суб'єктів), а менший n означає більшу дисперсію.


Якщо у вас результат не виживання, ви можете використовувати підхід гей з незалежною структурою corr та iptw вагами, як пропонується для неупереджених оцінок, якщо припустити, що ви правильно оцінюєте схильність. TMLE найкраще в усіх випадках, виживання чи ні, тому що ви можете використовувати ансамблеве навчання для прогнозування показників схильності та послідовних регресій та все-таки отримати ефективний висновок. Ваш підхід, безумовно, буде упередженим і дасть неправильний висновок і чим більший розмір вашої вибірки, якщо ефекту не буде, ви, ймовірно, визначите неправильний суттєвий ефект !!
Джонатан Леві

Для цього можна використати детальніше. Що таке Джені Робінсон? Який документ Ван дер Лаана?
mdewey

@mdewey вибачте, друкарня, мав на увазі Джеймі Робінса. Спробуйте Робінса, Ернана, граничні структурні моделі Babette 2000 та причинно-наслідкового висновку - чудовий метод для досягнення результату невиживання, включаючи спосіб зробити MSM з модифікаторами ефектів. Для laan, посилайтеся на книгу, цілеспрямоване навчання. Як я вже сказав, Лаан, мабуть, найкращий, але для розуміння потрібно більше. Пакет R Ltmle виконує цю методологію, але потрібен певний час для вивчення.
Джонатан Леві
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.