Обчислювальна повторюваність ефектів від lmer-моделі


28

Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде:

#fit the model
fit = lmer(dv~(1|unit),data=my_data)

#obtain the variance estimates
vc = VarCorr(fit)
residual_var = attr(vc,'sc')^2
intercept_var = attr(vc$id,'stddev')[1]^2

#compute the unadjusted repeatability
R = intercept_var/(intercept_var+residual_var)

#compute n0, the repeatability adjustment
n = as.data.frame(table(my_data$unit))
    k = nrow(n)
    N = sum(n$Freq)
n0 = (N-(sum(n$Freq^2)/N))/(k-1)

#compute the adjusted repeatability
Rn = R/(R+(1-R)/n0)

Я вважаю, що цей підхід також може бути використаний для обчислення надійності ефектів (тобто сумарний контрастний ефект змінної з 2 рівнями), як у:

#make sure the effect variable has sum contrasts
contrasts(my_data$iv) = contr.sum

#fit the model
fit = lmer(dv~(iv|unit)+iv,data=my_data)

#obtain the variance estimates
vc = VarCorr(fit)
residual_var = attr(vc,'sc')^2
effect_var = attr(vc$id,'stddev')[2]^2

#compute the unadjusted repeatability
R = effect_var/(effect_var+residual_var)

#compute n0, the repeatability adjustment
n = as.data.frame(table(my_data$unit,my_data$iv))
k = nrow(n)
N = sum(n$Freq)
    n0 = (N-(sum(n$Freq^2)/N))/(k-1)

#compute the adjusted repeatability
Rn = R/(R+(1-R)/n0)

Три питання:

  1. Чи мають сенс вищевказані обчислення для отримання бальної оцінки повторюваності ефекту?
  2. Коли у мене є декілька змінних, повторюваність яких я хочу оцінити, додавання їх у однаковій формі (наприклад lmer(dv~(iv1+iv2|unit)+iv1+iv2), здається, дає більш високі оцінки повторюваності, ніж створення окремої моделі для кожного ефекту. Для мене це має сенс обчислювально, оскільки включення декількох ефектів буде зменшувати залишкову дисперсію, але я не впевнений, що отримані оцінки повторюваності є дійсними. Чи вони?
  3. Вищенаведений документ говорить про те, що ймовірність профілювання може допомогти мені отримати довірчі інтервали для оцінок повторюваності, але, наскільки я можу сказати, confint(profile(fit))передбачає лише інтервали для відхилень перехоплення та ефекту, тоді як мені додатково потрібен інтервал для залишкової дисперсії для обчислення інтервал повторюваності, ні?

Відповіді:


6

Я думаю, що можу відповісти на ваші запитання принаймні щодо невідрегульованих оцінок повторюваності, тобто класичних внутрішньокласових кореляцій (МКК). Що стосується "скоригованої" оцінки повторюваності, я проглянув папір, яку ви зв'язали, і не зрозумів, де формула, яку ви застосовуєте, можна знайти в папері? Виходячи з математичного вираження, видається, що це повторюваність середніх балів (а не окремих балів). Але незрозуміло, що це так чи інакше важлива частина вашого питання, тому я його проігнорую.

(1.) Чи мають значення вищезазначені обчислення для отримання точкової оцінки повторюваності ефекту?

Так, вираз, який ви пропонуєте, має сенс, але необхідна незначна зміна запропонованої формули. Нижче я показую, як можна отримати запропонований коефіцієнт повторюваності. Я сподіваюся, що це одночасно роз'яснює концептуальне значення коефіцієнта, а також показує, чому було б бажано його трохи змінити.

Для початку давайте спочатку візьмемо коефіцієнт повторюваності у першому випадку та уточнимо, що це означає і звідки він походить. Розуміння цього допоможе нам зрозуміти складніший другий випадок.

Лише випадкові перехоплення

У цьому випадку змішана модель для ї відповіді в й групі - де випадкові перехоплення мають дисперсію і залишки мають відмінність .iy i j = β 0 + u 0 j + e i j , u 0 j σ 2 u 0 e i j σ 2 ej

yij=β0+u0j+eij,
u0jσu02eijσe2

Тепер співвідношення між двома випадковими змінними і визначається як y c o r r = c o v ( x , y )xy

corr=cov(x,y)var(x)var(y).

Вираз для коефіцієнта ICC / коефіцієнта повторюваності походить від дозволу двох випадкових величин і двома спостереженнями, проведеними з тієї ж групи, і якщо ви спростите це за допомогою наведених вище визначень та властивостей дисперсій / коваріацій (процес, який я тут не показуватиму, якщо ви та інші не віддасте перевагу тому, що я це робив), ви отримаєте xyj

ICC=cov(β0+u0j+ei1j,β0+u0j+ei2j)var(β0+u0j+ei1j)var(β0+u0j+ei2j),
ICC=σu02σu02+σe2.
Це означає, що ICC або "коефіцієнт повторної коригуваності" в цьому випадку має просту інтерпретацію як очікувану кореляцію між парними спостереженнями з одного кластеру (за винятком фіксованих ефектів, що в даному випадку є просто великим значенням). Те, що МКК також інтерпретується як частка дисперсії в цьому випадку, є випадковим; що інтерпретація взагалі не відповідає дійсності для більш складних МКК. Інтерпретація як якесь співвідношення є тим, що є первинним.

Випадкові перехоплення та випадкові нахили

Тепер для другого випадку ми повинні спочатку уточнити, що саме мається на увазі під «надійністю ефектів (тобто сумарний контрастний ефект змінної з 2 рівнями)» - ваші слова.

Спочатку викладаємо модель. Змішана модель для ї відповіді в й групі під м рівнем дорівнює де випадкові перехоплення мають дисперсію , випадкові нахили мають дисперсію , випадкові перехоплення та нахили мають коваріацію , а залишки мають дисперсію .ijkx

yijk=β0+β1xk+u0j+u1jxk+eijk,
σu02σu12σu01eijσe2

Отже, яка «повторюваність ефекту» за цією моделлю? Я думаю, що хорошим визначенням кандидата є те, що це очікуване співвідношення між двома парами балів різниць, обчислених у межах одного кластера , але в різних парах спостережень .ji

Таким чином, пара різниць балів, про які йдеться, буде (пам’ятайте, що ми припустили, що контрастується кодуванням, так що ): і x|x1|=|x2|=x

yi1jk2yi1jk1=(β0β0)+β1(xk2xk1)+(u0ju0j)+u1j(xk2xk1)+(ei1jk2ei1jk1)=2xβ1+2xu1j+ei1jk2ei1jk1
yi2jk2yi2jk1=2xβ1+2xu1j+ei2jk2ei2jk1.

Підключення їх до формули кореляції дає нам що спрощує вниз до Зауважте, що ICC технічно є функцією ! Однак у цьому випадку може приймати лише 2 можливі значення, а ICC однаковий для обох цих значень.

ICC=cov(2xβ1+2xu1j+ei1jk2ei1jk1,2xβ1+2xu1j+ei2jk2ei2jk1)var(2xβ1+2xu1j+ei1jk2ei1jk1)var(2xβ1+2xu1j+ei2jk2ei2jk1),
ICC=2x2σu122x2σu12+σe2.
xx

Як ви бачите, це дуже схоже на коефіцієнт повторюваності, який ви запропонували у своєму запитанні. Єдина відмінність полягає в тому, що випадкова дисперсія нахилу повинна бути відповідним чином масштабована, якщо вираз слід інтерпретувати як ICC або "невідрегульований коефіцієнт повторюваності". Вираз, який ви написали, працює в спеціальному випадку, коли кодировщик кодується , але не в цілому.x±12

(2.) Коли у мене є декілька змінних, повторюваність яких я хочу оцінити, додавання їх у однаковій формі (наприклад lmer(dv~(iv1+iv2|unit)+iv1+iv2), здається, дає більш високі оцінки повторюваності, ніж створення окремої моделі для кожного ефекту. Для мене це має сенс обчислювально, оскільки включення декількох ефектів, як правило, зменшить залишкову дисперсію, але я не впевнений, що отримані оцінки повторюваності є дійсними. Чи вони?

Я вважаю, що робота над аналогічною деривацією, представленою вище для моделі з декількома прогнозами з власними випадковими нахилами, показала б, що вищевказаний коефіцієнт повторюваності все-таки буде дійсним, за винятком додаткового ускладнення, яке б зараз бали різниці, які нас концептуально цікавлять. мають дещо інше визначення: а саме нас цікавить очікуване співвідношення відмінностей між скоригованими засобами після контролю за іншими прогнозами в моделі.

Якщо інші предиктори є ортогональними для прогнозованого, що цікавить (як, наприклад, збалансований експеримент), я думаю, що розроблений вище коефіцієнт ICC / повторюваність повинен працювати без будь-яких змін. Якщо вони не є ортогональними, то вам потрібно буде змінити формулу, щоб врахувати це, що може ускладнитися, але, сподіваюся, моя відповідь дала деякі підказки про те, як це може виглядати.


Ти прав, Джейк. Коригуваний ICC посилається на розділ VII. ЕКСТРАПОЛІЗОВАНА ВІДПОВІДАЛЬНІСТЬ І НАСЛІДНІСТЬ у зв'язаному папері. Автори пишуть Важливо розрізняти повторюваність окремих вимірювань та повторюваність засобів вимірюванняRRn .
Габра
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.