Чим відрізняється лінійна регресія від логістичної регресії?


122

Чим відрізняється лінійна регресія від логістичної регресії?

Коли ви використовували б кожен?


28
У лінійній регресійній моделі залежна змінна вважається безперервною, тоді як в логістичній регресії вона категоричною, тобто дискретною. У застосуванні перший використовується в налаштуваннях регресії, тоді як останній використовується для двійкової класифікації або багатокласової класифікації (де вона називається багаточленною логістичною регресією). y
Пардіс

Хоча це написано в іншому контексті, це може допомогти вам прочитати мою відповідь тут: Різниця між моделями logit і probit , яка містить багато інформації про те, що відбувається в логістичній регресії, що може допомогти вам зрозуміти їх краще.
gung

2
Усі попередні відповіді вірні, але є причини, за які ви можете віддати перевагу лінійній регресійній моделі, навіть якщо ваш результат є дихотомією. Я писав про ці причини тут: statisticshorizons.com/linear-vs-logistic
Пол фон Гіппель

Відповіді:


111

Лінійна регресія використовує загальне лінійне рівняння де - безперервна залежна змінна, і незалежні змінні зазвичай є безперервними (але також можуть бути двійковими, наприклад, коли лінійна модель використовується в t- тест) або інші окремі домени. - це термін для дисперсії, який не пояснюється моделлю і зазвичай називається "помилка". Індивідуальні залежні значення, позначені можна вирішити, змінивши рівняння трохи:Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

Логістична регресія - це ще одна узагальнена лінійна модель (GLM), що використовує ту саму основну формулу, але замість безперервного вона регресує для ймовірності категоричного результату. У найпростішій формі це означає, що ми розглядаємо лише одну змінну результату і два стани цієї змінної - або 0, або 1.Y

Рівняння ймовірності виглядає так: Y=1

P(Y=1)=11+e(b0+(biXi))

Ваші незалежні змінні можуть бути безперервними або двійковими. Коефіцієнти регресії можна експонувати, щоб дати вам зміни коефіцієнта за зміну , тобто і . називається коефіцієнтом шансів, . Англійською мовою можна сказати, що шанси збільшуються на коефіцієнт на одиницю зміни в .XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOddsOdds(Xi+1)Odds(Xi)Y=1ebiXi

Приклад: Якщо ви хотіли побачити, як індекс маси тіла прогнозує рівень холестерину в крові (безперервний показник), ви використовували б лінійну регресію, як описано у верхній частині моєї відповіді. Якщо ви хотіли побачити, як ІМТ прогнозує шанси на діабет (бінарний діагноз), ви використовуєте логістичну регресію.


1
Це виглядає як чудова відповідь, але чи можете ви пояснити, що і, зокрема, чому ви включаєте їх у підсумки? (Що, все-таки, підсумовується?)ϵi
бід

Мені здається, що Білл вважав, що він мав намір писати тобто (латинська абревіатура для цього є), а не ei
Майкл Черник

1
Але εi в підсумовуванні показника не повинно бути там. Схоже, термін шуму в моделі був випадково перенесений туди. Єдине підсумовування повинно бути над біс, що представляє р-коефіцієнти для p-коваріатів.
Майкл Черник

9
Існує помилка у вашому вираженні для . У вас повинен бути не Випадковість у логістичній регресійній моделі походить від того, що це випробування Бернуллі, а не від помилок у ймовірності успіху (ось як ти це написав). P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
Макрос

3
Логістична регресія @samthebrand сама по собі не є двійковою. Її можна використовувати для моделювання даних з двійковою відповіддю через ймовірності, що становлять від 0 до 1. Перехід до безсоромно підключити мою публікацію в блозі, яка повинна очистити вашу плутанину.
Бен

34

Лінійна регресія використовується для встановлення взаємозв'язку між залежними та незалежними змінними, що корисно при оцінці результуючої залежної змінної у випадку незалежної зміни змінної. Наприклад:

За допомогою лінійної регресії виявляється, що зв'язок між дощем (R) та продажем парасольки (U) є - U = 2R + 5000

Це рівняння говорить про те, що на кожні 1 мм дощу потрібно попит на 5002 парасольки. Отже, використовуючи просту регресію, можна оцінити значення змінної.

З іншого боку, логістична регресія використовується для встановлення ймовірності події. І ця подія фіксується у двійковому форматі, тобто 0 або 1.

Приклад - я хочу з’ясувати, чи купить мій товар клієнт чи ні. Для цього я би запустив логістичну регресію на (релевантних) даних, і моя залежна змінна була б бінарною змінною (1 = так; 0 = ні).

З точки зору графічного подання, лінійна регресія дає лінійну лінію як вихід, як тільки значення нанесено на графік. Тоді як логістична регресія дає S-подібну лінію

Довідка від Мохіта Хурана.


8
Re: "Лінійна регресія використовується для встановлення взаємозв'язку між залежною та незалежною змінними" - це також стосується логістичної регресії - це просто те, що залежна змінна є двійковою.
Макрос

3
Логістична регресія не тільки для прогнозування бінарної події ( класи). Його можна узагальнити до класів (багаточленна логістична регресія)2k
tgy

27

Різниці були врегульовані DocBuckets та Pardis, але я хочу додати один із способів порівняння їх продуктивності, не згадуваний.

Лінійна регресія зазвичай вирішується шляхом мінімізації найменшої похибки квадрата моделі до даних, тому великі помилки штрафуються квадратично. Логістична регресія якраз навпаки. Використання функції логістичних втрат спричиняє великі помилки до асимптотичної константи.

Розглянемо лінійну регресію за категоричними {0,1} результатами, щоб побачити, чому це проблема. Якщо ваша модель передбачає результат 38, коли правда дорівнює 1, ви нічого не втратили. Лінійна регресія намагатиметься зменшити цю 38, логістична не (настільки ж).


Тоді були ситуації / випадки, які караються логістично, тобто в яких випадках ми б погано підходили?
MSIS

1
Якраз навпаки: коли більші відхилення від пристосування насправді дають гірші результати. Наприклад, логістична регресія добре допомагає вам забивати вас, коли ви потрапляєте у дошку про дартс, але не можу зробити привабливим виглядом приємно виглядати. Або, аналогічно, вважає, що близька промах дошки - це те саме, що дотримуватися вашого сусіда.
Дж. Абрахамсон

Чудова відповідь. Чи було проведено якесь дослідження, наскільки це шкодить продуктивності моделі? Я маю на увазі, якщо лінійна регресія була використана для прогнозування відповіді = {0,1} замість логістичної регресії.
Тагар
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.