Логічно-лінійна регресія проти логістичної регресії


21

Чи може хтось надати чіткий перелік відмінностей між лінійно-лінійною регресією та логістичною регресією? Я розумію, що перша - це проста модель лінійної регресії, але мені не ясно, коли кожну з них слід використовувати.

Відповіді:


19

Ім'я трохи неправильне. Лінійно-лінійні моделі традиційно використовувались для аналізу даних у форматі таблиці надзвичайних ситуацій. Хоча «дані про підрахунок» не обов'язково повинні слідувати розподілу Пуассона, лінійна модель журналу фактично є лише регресійною моделлю Пуассона. Звідси назва "log" (регресійні моделі Пуассона містять функцію зв'язку "log").

"Змінна результату, перетворена журналом" у лінійній регресійній моделі не є лінійно-лінійною моделлю (також не є експонентована змінною результату, як це передбачає "log-лінійна"). Як лінійні моделі, так і логістичні регресії є прикладами узагальнених лінійних моделей , в яких взаємозв'язок між лінійним предиктором (наприклад, коефіцієнтами журналу або коефіцієнтами журналу) є лінійним у змінних моделі. Вони не є "простими моделями лінійної регресії" (або моделями, що використовують звичайний формат ).Е[Y|Х]=а+бХ

Незважаючи на все, можна отримати еквівалентний висновок про асоціації між категоріальними змінними за допомогою логістичної регресії та пуассонової регресії. Просто в пуассоновій моделі змінні результати трактуються як коваріати. Цікаво, що ви можете налаштувати деякі моделі, які запозичують інформацію у групах, таким чином, як аналогічну пропорційній моделі шансів, але це недостатньо зрозуміло і використовується рідко.

Приклади отримання еквівалентних висновків у логістичних та пуассонових регресійних моделях з використанням R проілюстровані нижче:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Цікаво, що відсутність асоціації між та означає, що коефіцієнт шансів 1 у логістичній регресійній моделі дорівнює 1, а в логічній лінійній моделі термін взаємодії дорівнює 0. Дає вам уявлення про те, як ми вимірюємо умовну незалежність у даних таблиці непередбачених ситуацій.ух


Знову ж таки, це, мабуть, показує мою недосвідченість, але чи зможете ви дати визначення для таблиць на випадок надзвичайних ситуацій? Це також може допомогти іншим, хто стикається з цим питанням.
користувач38133

Таблиці на випадок надзвичайних ситуацій - це, як правило, двовимірні таблиці, які перераховують усі можливі відповіді двох змінних і показують частоту спостережень у клітинах. Наприклад, у вас може бути таблиця на випадок 2 на 2 із зазначенням статусу куріння (ніколи проти нинішнього) та раку (легенів, проти раку), які ви б використали для оцінки зв'язку між курінням та ризиком раку.
АдамО

15

Я не думаю, що я б назвав жодну з них "простою лінійною регресійною моделлю". Хоча можливе використання перетворень log або logit як функції зв’язку для декількох різних моделей, під типовою їх розумінням посилаються на конкретні моделі. Наприклад, "логістична регресія" розуміється як узагальнена лінійна модель (GLiM) для ситуацій, коли змінна відповіді розподіляється як двочлен . Крім того, "лог-лінійна регресія" зазвичай розуміється як Poisson GLiM, застосована до багатосторонніх таблиць на випадок надзвичайних ситуацій. Іншими словами, окрім того, що вони обидві регресійні моделі / GLiM, я не вважаю, що вони є дуже схожими (між ними є деякі зв’язки, як вказує @AdamO, але типові звички досить чіткі). Найбільша різниця полягала б у тому, що логістична регресія передбачає, що відповідь розподіляється у вигляді біноміальної, а лінійно-лінійна регресія передбачає, що відповідь розподіляється як Пуассон . Насправді, лінійна регресія журналу сильно відрізняється від більшості регресійних моделей тим, що змінна відповіді насправді взагалі не є однією з ваших змінних (у звичайному розумінні), а скоріше набір підрахунків частот, пов'язаних із комбінаціями ваших змінних. у багатосторонній таблиці надзвичайних ситуацій.


Спасибі! Я думаю, тоді моє природне запитання, яке, мабуть, показує мою відсутність досвіду, стосується того, як визначити, який правильний розподіл для моделювання даної проблеми. Я думаю, що мені потрібно буде трохи більше читати, щоб переконатися, що я завжди можу правильно вибрати.
користувач38133

2
{0, 1}

0

Для уточнення, "двійкова" логістична регресія має залежну змінну з двома результатами. Я розумію, що існує також можливість використовувати "багаточленну" логістичну регресію, якщо ваша залежна змінна результат має більше ніж 2 категорії. Дивіться тут .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.