Чим відрізняється лінійна регресія від логістичної регресії?
Коли ви використовували б кожен?
Чим відрізняється лінійна регресія від логістичної регресії?
Коли ви використовували б кожен?
Відповіді:
Лінійна регресія використовує загальне лінійне рівняння де - безперервна залежна змінна, і незалежні змінні зазвичай є безперервними (але також можуть бути двійковими, наприклад, коли лінійна модель використовується в t- тест) або інші окремі домени. - це термін для дисперсії, який не пояснюється моделлю і зазвичай називається "помилка". Індивідуальні залежні значення, позначені можна вирішити, змінивши рівняння трохи:
Логістична регресія - це ще одна узагальнена лінійна модель (GLM), що використовує ту саму основну формулу, але замість безперервного вона регресує для ймовірності категоричного результату. У найпростішій формі це означає, що ми розглядаємо лише одну змінну результату і два стани цієї змінної - або 0, або 1.
Рівняння ймовірності виглядає так:
Ваші незалежні змінні можуть бути безперервними або двійковими. Коефіцієнти регресії можна експонувати, щоб дати вам зміни коефіцієнта за зміну , тобто і . називається коефіцієнтом шансів, . Англійською мовою можна сказати, що шанси збільшуються на коефіцієнт на одиницю зміни в .
Приклад: Якщо ви хотіли побачити, як індекс маси тіла прогнозує рівень холестерину в крові (безперервний показник), ви використовували б лінійну регресію, як описано у верхній частині моєї відповіді. Якщо ви хотіли побачити, як ІМТ прогнозує шанси на діабет (бінарний діагноз), ви використовуєте логістичну регресію.
Лінійна регресія використовується для встановлення взаємозв'язку між залежними та незалежними змінними, що корисно при оцінці результуючої залежної змінної у випадку незалежної зміни змінної. Наприклад:
За допомогою лінійної регресії виявляється, що зв'язок між дощем (R) та продажем парасольки (U) є - U = 2R + 5000
Це рівняння говорить про те, що на кожні 1 мм дощу потрібно попит на 5002 парасольки. Отже, використовуючи просту регресію, можна оцінити значення змінної.
З іншого боку, логістична регресія використовується для встановлення ймовірності події. І ця подія фіксується у двійковому форматі, тобто 0 або 1.
Приклад - я хочу з’ясувати, чи купить мій товар клієнт чи ні. Для цього я би запустив логістичну регресію на (релевантних) даних, і моя залежна змінна була б бінарною змінною (1 = так; 0 = ні).
З точки зору графічного подання, лінійна регресія дає лінійну лінію як вихід, як тільки значення нанесено на графік. Тоді як логістична регресія дає S-подібну лінію
Довідка від Мохіта Хурана.
Різниці були врегульовані DocBuckets та Pardis, але я хочу додати один із способів порівняння їх продуктивності, не згадуваний.
Лінійна регресія зазвичай вирішується шляхом мінімізації найменшої похибки квадрата моделі до даних, тому великі помилки штрафуються квадратично. Логістична регресія якраз навпаки. Використання функції логістичних втрат спричиняє великі помилки до асимптотичної константи.
Розглянемо лінійну регресію за категоричними {0,1} результатами, щоб побачити, чому це проблема. Якщо ваша модель передбачає результат 38, коли правда дорівнює 1, ви нічого не втратили. Лінійна регресія намагатиметься зменшити цю 38, логістична не (настільки ж).