Яка різниця між лінійною регресією, перетвореною логітом, логістичною регресією та логістичною змішаною моделлю?


10

Припустимо, у мене є 10 учнів, які намагаються вирішити 20 задач з математики. Проблеми оцінюються правильними або неправильними (у лонгдатах), а результативність кожного учня може бути узагальнена за допомогою міри точності (у підданих). Моделі 1, 2 і 4 нижче, здається, дають різні результати, але я розумію, що вони роблять те саме. Чому вони дають різні результати? (Я включив модель 3 для довідки.)

library(lme4)

set.seed(1)
nsubjs=10
nprobs=20
subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5))
longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ]
longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4)
subjdata$acc = by(longdata$correct,longdata$subj,mean)
model1 = lm(logit(acc)~iq,subjdata)
model2 = glm(acc~iq,subjdata,family=gaussian(link='logit'))
model3 = glm(acc~iq,subjdata,family=binomial(link='logit'))
model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

Я також спробував бета-регресію, але отримав помилку ... library(betareg) model5 = betareg(acc~scale(iq),subjdata)
user20061

library(car)необхідно для функції logit.
користувач20061

1
Це може допомогти вам прочитати два мої відповіді на відповідні запитання: Різниця між logit і probit моделями (яка обговорює функції зв’язку та GLiMs загалом - коментар наприкінці конкретно стосується ваших 1 і 3), та Відмінність узагальнених лінійних моделей & узагальнені лінійні змішані моделі (де обговорюється, чим ваш 4 відрізняється від 1 та 3).
gung - Відновіть Моніку

Відповіді:


15

Моделі 1 і 2 відрізняються тим, що перша перетворює відповідь, а друга перетворює її очікуване значення.

Для моделі 1 логіт кожної відповіді звичайно розподіляється ім'я із середнім значенням будучи лінійною функцією векторів предиктора та коефіцієнта. і тому Для Моделі 2 сама відповідь зазвичай розподіляється ім'я при цьому його логіт є лінійною функцією прогноктора і векторами коефіцієнта & тому

logitYiN(μi,σ2)
μi=xiβ
Yi=logit1(xiβ+εi)
YiN(μi,σ2)
logitμi=xiβ
Yi=logit1(xiβ)+εi

Тож структура дисперсії буде різною. Уявіть, що імітують з моделі 2: дисперсія буде незалежною від очікуваного значення; & хоча очікувані значення відповідей будуть становити між 0 і 1, відповіді не всі будуть.

Узагальнені лінійні змішані моделі, такі як модель 4, знову відрізняються, оскільки містять випадкові ефекти: дивіться тут та тут .


Дуже дякую - це дуже чітко розрізняє модель 1 і модель 2. Ваші міркування про те, що модель 2 передбачає, що деякі показники точності (хоча не їх очікувані значення) знаходяться поза [0,1], особливо корисні (і дискваліфікують це для моїх цілей ). Я вважаю, що подібну інтуїцію можна використати і проти моделі 1: її діапазон можливих прогнозованих показників точності потрапляє у (0,1), а не [0,1]. Маючи обмежену кількість запитань, модель повинна передбачати, що деякі показники точності становлять 0 або 1, і біноміальний розподіл може зробити саме це.
користувач20061

2
Зауважте, що зазвичай слід підходити до двочленного GLM з посиланням logit проти необроблених даних (ваших longdata), а не пропорцій, як у вашій Моделі 3.
Scortchi - Відновити Моніку

7

+1 до @Scortchi, який дав дуже чітку і стисну відповідь. Я хочу зробити кілька додаткових моментів. По-перше, для вашої другої моделі ви вказуєте, що ваш розподіл відповідей є гауссовим (він же є нормальним). Це має бути помилковим, оскільки кожна відповідь оцінюється як правильна або неправильна. Тобто кожна відповідь - це суд Бернуллі. Таким чином, ваш розподіл відповідей є двочленним. Ця ідея точно відображена і у вашому коді. Далі ймовірність регулювання розподілу відповідей зазвичай розподіляється, тому посилання повинно бути пробітним, а не логітним. Нарешті, якби це була реальна ситуація, вам потрібно було б врахувати випадкові ефекти як для предметів, так і для питань, оскільки вони навряд чи однакові. Те, як ви створили ці дані, єдиним релевантним аспектом кожної людини є їх IQ, які ви явно врахували. Таким чином, не залишається нічого, що потрібно враховувати випадковим ефектом у моделі. Це справедливо і для запитань, оскільки випадкові зміни складності запитань не є частиною процесу генерації даних у вашому коді.

Я не маю на увазі, що тут мимоволі. Я усвідомлюю, що ваша установка призначена просто для полегшення вашого запитання, і вона послужила цій меті; @Scortchi зміг вирішити ваші питання дуже безпосередньо, з мінімальною суєтою. Однак я наголошую на цих речах, тому що вони надають додаткові можливості зрозуміти ситуацію, з якою ви стикаєтесь, і тому, що ви, можливо, не зрозуміли, що ваш код відповідає деяким частинам вашої сюжетної лінії, але не іншим.


Дякую за такі уважні думки щодо мого коду. Як хтось, хто працює з емпіричними даними, я з гордістю можу сказати, що я не маю досвіду в генеруванні підроблених даних, і це показує тут недоліки, які ви виявили. Хоча, мій початковий рівень розуміння може також виявляти себе.
користувач20061

Дякую Гунг, що додаткова інформація була корисною та допомагає іншим (принаймні мені) зрозуміти всю ситуацію трохи краще. Отримати ручку за підходом до GLM важко.
Крістофер Пойл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.