Чим відрізняється лінійна регресія від логістичної регресії?


242

Коли нам потрібно передбачити значення категоричного (або дискретного) результату, ми використовуємо логістичну регресію . Я вважаю, що ми використовуємо лінійну регресію, щоб також передбачити значення результату з урахуванням вхідних значень.

Тоді, в чому різниця між двома методологіями?

Відповіді:


270
  • Вихід лінійної регресії у вигляді ймовірностей

    Використовувати лінійний регресійний вихід в якості ймовірностей, але це помилка, оскільки вихід може бути негативним і більшим за 1, тоді як ймовірність не може. Оскільки регресія фактично може спричинити ймовірності, які можуть бути меншими за 0 або навіть більшими за 1, було введено логістичну регресію.

    Джерело: http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    введіть тут опис зображення

  • Результат

    При лінійній регресії результат (залежна змінна) є безперервним. Він може мати будь-яке з нескінченної кількості можливих значень.

    У логістичній регресії результат (залежна змінна) має лише обмежену кількість можливих значень.

  • Залежна змінна

    Логістична регресія використовується тоді, коли змінна відповіді носить категоричний характер. Наприклад, так / ні, справжнє / хибне, червоне / зелене / синє, 1/2/3/4 / і т.д.

    Лінійна регресія використовується, коли змінна відповіді є безперервною. Наприклад, вага, зріст, кількість годин тощо.

  • Рівняння

    Лінійна регресія дає рівняння, яке має вигляд Y = mX + C, означає рівняння зі ступенем 1.

    Однак логістична регресія дає рівняння, яке має вигляд Y = e X + e -X

  • Коефіцієнтне тлумачення

    При лінійній регресії коефіцієнт інтерпретації незалежних змінних є досить простим (тобто, утримуючи всі інші змінні постійними, при одиничному збільшенні цієї змінної, очікується, що залежна змінна збільшиться / зменшиться на xxx).

    Однак, при логістичній регресії, залежно від сімейства (двочлена, Пуассона тощо) та зв’язку (log, logit, inverse-log тощо), який ви використовуєте, трактування різне.

  • Техніка мінімізації помилок

    Лінійна регресія використовує звичайний метод найменших квадратів, щоб мінімізувати помилки та досягти найкращого підходу, тоді як логістична регресія використовує метод максимальної ймовірності для досягнення рішення.

    Лінійна регресія зазвичай вирішується мінімізацією найменшої похибки квадрата моделі до даних, тому великі помилки штрафуються квадратично.

    Логістична регресія - якраз навпаки. Використання функції логістичних втрат спричиняє великі помилки до асимптотичної константи.

    Розглянемо лінійну регресію за категоричними результатами {0, 1}, щоб побачити, чому це проблема. Якщо ваша модель передбачає результат 38, коли правда дорівнює 1, ви нічого не втратили. Лінійна регресія намагатиметься зменшити 38, логістична не буде (наскільки) 2 .


Чи є різниця між Y = e ^ X / 1 + e ^ -X і Y = e ^ X + e ^ -X?
MMS

3
e ^ X / 1? що-небудь розділити на 1 - те саме. тому різниці немає. Я впевнений, що ви мали намір запитати щось інше.
космонавт

Я знаю, що це стара нитка, але враховуючи ваше твердження: "Логістична регресія використовується, коли змінна відповіді має категоричний характер. Наприклад, так / ні, справжнє / хибне, червоне / зелене / синє, 1/2/3/4, тощо "; у чому тоді різниця між цим та класифікацією?
корольЮліан

@kingJulian Логістична регресія справді використовується для класифікації. Перевірте це , можливо, ви будете корисними як у мене
QuantumHoneybees

@kingJulian: Логістична регресія - це метод класифікації та класифікація стендів для декількох алгоритмів, які намагаються передбачити кілька результатів.
user3676305

204

При лінійній регресії результат (залежна змінна) є безперервним. Він може мати будь-яке з нескінченної кількості можливих значень. У логістичній регресії результат (залежна змінна) має лише обмежену кількість можливих значень.

Наприклад, якщо X містить площу в будинках квадратних футів, а Y містить відповідну ціну продажу цих будинків, ви можете використовувати лінійну регресію для прогнозування ціни продажу як функції розміру будинку. Хоча можлива ціна продажу фактично не може бути будь-якою , існує стільки можливих значень, що була б обрана лінійна модель регресії.

Якщо б замість цього ви хотіли передбачити, виходячи з розміру, чи продаватиметься будинок за більш ніж 200 000 доларів, ви б використали логістичну регресію. Можливі результати - або Так, будинок продаватиметься за понад 200 000 доларів, або Ні, будинок не буде.


3
На прикладі логістичної регресії Ендрюса рак я можу провести горизонтальну лінію y = .5, (яка, очевидно, проходить через y = .5), десять, якщо якась точка знаходиться вище цієї лінії y = .5 => + ve, else -ve . Тоді для чого мені потрібна логістична регресія. Я просто намагаюся зрозуміти найкраще пояснення для використання логістичної регресії?
вініта

@vinita: тут чи тут простий приклад не використовувати лінійну регресію, а потім утримувати молоту, для проблем класифікації.
Анкуш Шах

3
логістична регресія - кращий класифікатор категоричних даних, ніж лінійна регресія. Він використовує функцію помилки перехресної ентропії замість найменших квадратів. Тому це не так чутливо ставитись до людей, що вижили, а також не карає "занадто правильні" точки даних, як це робить найменше квадратів.
Marcel_marcel1991

15

Просто додати до попередніх відповідей.

Лінійна регресія

Призначений для вирішення проблеми прогнозування / оцінки вихідного значення для заданого елемента X (скажімо, f (x)). Результатом прогнозування є конусна функція, де значення можуть бути позитивними чи негативними. У цьому випадку у вас зазвичай є вхідний набір даних з великою кількістю прикладів і вихідне значення для кожного з них. Мета полягає в тому, щоб мати можливість підлаштувати модель до цього набору даних, щоб ви могли передбачити вихід для нових різних / ніколи не бачених елементів. Далі наведено класичний приклад пристосування лінії до набору точок, але загалом лінійна регресія може бути використана для розміщення більш складних моделей (з використанням більш високих ступенів многочлена):

введіть тут опис зображення Вирішення проблеми

Регресію ліній можна вирішити двома різними способами:

  1. Нормальне рівняння (прямий спосіб вирішення задачі)
  2. Градієнтний спуск (Ітеративний підхід)

Логістична регресія

Призначений для вирішення проблем з класифікацією, коли дано елемент, ви повинні класифікувати їх у N категоріях. Типовими прикладами є, наприклад, надана пошта, щоб її класифікувати як спам чи ні, або дано транспортний засіб до тієї категорії, до якої належить (автомобіль, вантажівка, фургон тощо). Це, по суті, вихід - це кінцевий набір конкретних значень.

Вирішення проблеми

Проблеми логістичної регресії можна було вирішити лише за допомогою градієнтного спуску. Формулювання в цілому дуже схоже на лінійну регресію, лише різницею є використання різних функцій гіпотези. При лінійній регресії гіпотеза має вигляд:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 

де тета - модель, до якої ми намагаємося поміститись, і [1, x_1, x_2, ..] є вхідним вектором. У логістичній регресії функція гіпотези різна:

g(x) = 1 / (1 + e^-x)

введіть тут опис зображення

Ця функція має приємне властивість, і в основному вона відображає будь-яке значення в діапазоні [0,1], який підходить для обробки розповсюдженості під час класифікації. Наприклад, у випадку двійкової класифікації g (X) можна інтерпретувати як ймовірність належності до позитивного класу. У цьому випадку зазвичай у вас є різні класи, які розділені границею рішення, яка в основному є кривою, яка вирішує поділ між різними класами. Далі наводиться приклад набору даних, розділених на два класи.

введіть тут опис зображення


7

Вони обидва досить схожі у вирішенні рішення, але, як вже говорили інші, одна (Логістична регресія) - це для прогнозування категорії "придатність" (Y / N або 1/0), а інша (Linear Regression) - для прогнозування значення.

Тож якщо ви хочете передбачити, чи є у вас рак Y / N (або ймовірність) - використовуйте логістичну. Якщо ви хочете знати, скільки років ви проживете - використовуйте лінійну регресію!


6

Основна різниця:

Лінійна регресія - це в основному модель регресії, що означає, що вона дасть не дискретний / безперервний вихід функції. Тож такий підхід надає значення. Наприклад: задано x що є f (x)

Наприклад, з урахуванням навчального набору різних факторів та ціни на майно після навчання, ми можемо надати необхідні фактори, щоб визначити, якою буде ціна на нерухомість.

Логістична регресія - це в основному алгоритм бінарної класифікації, що означає, що тут буде дискретно оцінено результат для функції. Наприклад: для даного х, якщо f (x)> поріг, класифікуйте його як 1 інше, класифікуйте його як 0.

Наприклад, з урахуванням набору розміру пухлини мозку як навчальних даних, ми можемо використовувати розмір в якості вхідного даних, щоб визначити, чи є це беннін або злоякісна пухлина. Тому вихід тут дискретний або 0, або 1.

* тут функція - це в основному функція гіпотези


5

Простіше кажучи, лінійна регресія - це алгоритм регресії, який витісняє можливе безперервне і нескінченне значення; логістична регресія розглядається як алгоритм бінарного класифікатора, який видає "ймовірність" введення, що належить мітці (0 або 1).


Слава Богу, я прочитав Вашу записку про ймовірність. Збирався списувати логістику як двійковий класифікатор.
HashRocketSyntax

4

Регресія означає безперервну змінну, лінійна означає, що між y і x є лінійна залежність. Приклад = Ви намагаєтеся передбачити зарплату за безвіковий досвід. Отже, зарплата тут є незалежною змінною (y), і yrs досвіду залежить від змінної (x). y = b0 + b1 * x1 Лінійна регресія Ми намагаємось знайти оптимальне значення константних b0 і b1, яке дасть нам найкращу лінію для ваших даних спостереження. Це рівняння рядка, яке дає безперервне значення від x = 0 до дуже великого значення. Ця лінія називається лінійною регресійною моделлю.

Логістична регресія - це метод класифікації. Не вводиться в оману терміном регресії. Тут ми прогнозуємо, чи y = 0 або 1.

Тут для початку нам потрібно знайти p (y = 1) (wprobability y = 1), заданий x з формули нижче.

проб

Ймовірність p пов'язана з y нижньою формулою

с

Приклад = ми можемо класифікувати пухлину, що має більше 50% шансів захворіти на рак як 1, а пухлина має менше 50% шансів захворіти на рак як 0. 5

Тут червона точка буде прогнозована як 0, тоді як зелена точка буде передбачена як 1.


1

Якщо коротко: лінійна регресія дає безперервний вихід. тобто будь-яке значення між діапазоном значень. Логістична регресія дає дискретний вихід. тобто так / ні, 0/1 вид виходів.


1

Не можна погодитися більше з вищезазначеними коментарями. Над цим є ще деякі відмінності на кшталт

У лінійній регресії залишки вважаються нормально розподіленими. У логістичній регресії залишки повинні бути незалежними, але зазвичай не розподіляються.

Лінійна регресія передбачає, що постійна зміна значення пояснювальної змінної призводить до постійної зміни змінної відповіді. Це припущення не виконується, якщо значення змінної відповіді представляє ймовірність (у логістичній регресії)

GLM (Узагальнені лінійні моделі) не передбачає лінійної залежності між залежними та незалежними змінними. Однак він передбачає лінійну залежність між функцією зв'язку та незалежними змінними в моделі logit.


1
| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

0

Простіше кажучи, якщо в лінійній регресійній моделі надійде більше тестових випадків, які знаходяться далеко від порогу (скажімо, 0,5) для прогнозування y = 1 і y = 0. Тоді в цьому випадку гіпотеза зміниться і погіршиться. Тому модель лінійної регресії не використовується для задачі класифікації.

Інша проблема полягає в тому, що якщо класифікація y = 0 і y = 1, h (x) може бути> 1 або <0. Отже, використовуючи логістичну регресію, було 0 <= h (x) <= 1.


0

Логістична регресія використовується для прогнозування категоричних результатів, таких як Так / Ні, Низький / Середній / Високий і т.д. / Високий, цифри від 0-9 тощо)

З іншого боку, лінійна регресія - це якщо ваша залежна змінна (y) безперервна. y = mx + c - просте рівняння лінійної регресії (m = нахил, а c - y-перехоплення). Багатолінійна регресія має більше ніж 1 незалежну змінну (x1, x2, x3 ... тощо)


0

При лінійній регресії результат є безперервним, тоді як при логістичній регресії результат має лише обмежену кількість можливих значень (дискретних).

Приклад: У сценарії задане значення x - це розмір ділянки в квадратних футах, то передбачуючи y, тобто швидкість ділянки потрапляє під лінійну регресію.

Якщо б, замість цього, ви хотіли передбачити, виходячи з розміру, чи продаватиметься ділянка за понад 300000 Rs, ви б використали логістичну регресію. Можливі виходи - або Так, ділянка продаватиметься за більш ніж 300000 Rs, або Ні.


0

У випадку лінійної регресії результат є безперервним, тоді як у випадку логістичної регресії результат дискретний (не безперервний)

Для виконання лінійної регресії нам потрібна лінійна залежність між залежною та незалежною змінними. Але для здійснення логістичної регресії нам не потрібна лінійна залежність між залежною та незалежною змінними.

Лінійна регресія - це все, що стосується встановлення прямої лінії в дані, тоді як логістична регресія - це приведення кривої до даних.

Лінійна регресія - алгоритм регресії для машинного навчання, тоді як логістична регресія - алгоритм класифікації для машинного навчання.

Лінійна регресія передбачає гауссова (або нормальна) розподіл залежної змінної. Логістична регресія передбачає біноміальний розподіл залежної змінної.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.