Інтуїція за логістичною регресією


25

Нещодавно я почав вивчати машинне навчання, проте мені не вдалося зрозуміти інтуїцію за логістичною регресією .

Далі наведені факти про логістичну регресію, які я розумію.

  1. В якості основи гіпотези ми використовуємо сигмоїдну функцію . Я розумію , чому це правильний вибір, проте , чому це єдиний вибір , який я не розумію. Гіпотеза представляє ймовірність того, що відповідний вихід дорівнює , тому область нашої функції повинна бути , це єдина властивість сигмоїдної функції, яку я вважав тут корисною і доцільною, проте багато функцій задовольняють цій властивості. Крім того, сигмоїдна функція має похідну в такому вигляді , але я не бачу корисності цієї спеціальної форми в логістичній регресії.[ 0 , 1 ] f ( x ) ( 1 - f ( x ) )1[0,1]f(х)(1-f(х))

    Питання : що так особливого в сигмоїдній функції, і чому ми не можемо використовувати будь-яку іншу функцію з доменом ?[0,1]

  2. Функція витрат складається з двох параметрів якщо якщо . У тому ж, що було вище, я розумію, чому це правильно, проте чому це єдина форма? Наприклад, чому не мігбути хорошим вибором для функції витрат?Сост(годθ(х),у)=-журнал(годθ(х))y=1,Cost(hθ(x),y)=log(1hθ(x))y=0|hθ(x)y|

    Запитання : що так особливого у наведеній формі функції витрат; чому ми не можемо використовувати іншу форму?

Буду вдячний, якщо ви можете поділитися своїм розумінням логістичної регресії.


5
Функція logit / logistic - не єдина функція, яка може використовуватися як функція зв'язку для регресійних моделей, коли відповідь розподіляється як двочлен. Щодо цього моменту, можливо, вам допоможе прочитати мою відповідь тут: моделі «відмінності між-logit-та-probit» .
gung - Відновити Моніку

4
Моя відповідь тут: чи завжди функція logit найкраща для регресійного моделювання бінарних даних , також може бути корисною думкою про різні можливості.
gung - Відновити Моніку

1
@AdamO надає чудовий огляд нижче. Якщо ви хочете отримати більш детальну інформацію про те, що означає, що logit - це "канонічна функція зв'язку", ви можете прочитати тут відповідь Момо: різниця між-функцією-зв'язком-і-канонічною-ланкою-функцією-для-glm .
gung - Відновіть Моніку

1
Опрацьований ілюстрований приклад (1), де "сигмоїд" не використовується, з'являється на сайті stats.stackexchange.com/a/70922 . Ця відповідь включає пояснення (2). Інший приклад з’являється на сайті stats.stackexchange.com/questions/63978/… . Більш приземлене (але менш технічне) обговорення відбувається на сайті stats.stackexchange.com/a/69873 , зосередившись на питанні (2).
whuber

Відповіді:


7

Модель логістичної регресії - це максимальна ймовірність використання натурального параметра (коефіцієнта коефіцієнта журналу) для порівняння відносних змін ризику результату на різницю одиниці прогнозу. Це, звичайно, передбачає біноміальну модель вірогідності результату. Це означає, що властивості послідовності та стійкості логістичної регресії поширюються безпосередньо від максимальної ймовірності: стійкої до відсутності випадкових даних, кореневої n узгодженості та існування та унікальності рішень для оцінювання рівнянь. Це припускаючи, що рішення не знаходяться на межах простору параметрів (де коефіцієнт коефіцієнтів журналу становить ). Оскільки логістична регресія є максимальною ймовірністю, функція втрат пов'язана з ймовірністю, оскільки вони є рівнозначними проблемами оптимізації.±

Маючи квазіподібність або оцінювання рівнянь (напівпараметричні умовиводи), існування, властивості унікальності все ще зберігаються, але припущення про те, що середня модель є нерелевантною, а умовиводи і стандартні помилки узгоджуються незалежно від неправильної уточнення моделі. Тож у цьому випадку справа не в тому, чи сигмоїда є правильною функцією, а в тій, яка дає нам тенденцію, в яку ми можемо вірити і параметризується параметрами, які мають розширювану інтерпретацію.

Сигмоїд, однак, не є єдиною функцією бінарного моделювання навколо. Подібні властивості має найчастіше контрастна функція пробіта. Він не оцінює коефіцієнти коефіцієнтів журналу, але функціонально вони дуже схожі і мають тенденцію давати дуже схожі наближення до точно тієї ж речі . Не потрібно також використовувати властивості обмеження у функції середньої моделі. Просто використання кривої журналу з функцією біноміальної дисперсії дає відносну регресію ризику, ідентичність зв'язку з біноміальною дисперсією дає моделі аддитивного ризику. Все це визначає користувач. На жаль, популярність логістичної регресії, на жаль, чому її так часто використовують. Однак у мене є свої причини (ті, про які я заявив), чому я вважаю, що це цілком виправдано, оскільки він використовується в більшості моделей бінарних результатів.

У світі висновку, що стосується рідкісних результатів, коефіцієнт шансів можна приблизно трактувати як "відносний ризик", тобто "відсоткове відносне зміна ризику результату порівняння X + 1 з X". Це не завжди так, і взагалі коефіцієнт шансів не може і не повинен тлумачитися таким. Однак, ці параметри мають інтерпретацію, і їх можна легко повідомити іншим дослідникам - важливий момент, чого, на жаль, не вистачає в дидактичних матеріалах машиністів.

Модель логістичної регресії також дає концептуальні основи для більш досконалих підходів, таких як ієрархічне моделювання, а також змішаного моделювання та підходів умовної вірогідності, які є послідовними та надійними для експоненціально зростаючої кількості параметрів неприємностей. ГЛМ і умовна логістична регресія є дуже важливими поняттями у статистиці високих розмірів.


1
Дуже дякую за вашу відповідь! Схоже, у мене величезний брак у фоновому режимі.
користувач16168

Я думаю, що книга МакКаллоу та Нелдера «Узагальнені лінійні моделі» буде чудовим фоновим ресурсом для більш детальної перспективи статистики.
AdamO

Загалом, який підручник ви радите в машинному навчанні з дуже детальним описовим змістом?
користувач16168

Елементи статистичного навчання Хасті, Тібшірані, Фрідмана.
AdamO

2
@ user48956 Статистичний аналіз із відсутнім Dada, Little & Rubin 2nd ed. Відсутні дані не "представлені" самі по собі, а "обробляються" упущенням. Це не стосується логістичної регресії: це наївний підхід, який застосовують усі статистичні моделі. Коли дані форматуються у прямокутному масиві, рядки з відсутніми значеннями опускаються. Це відомо як повний аналіз випадку. GLM та GLMMS є надійними для відсутніх даних у тому сенсі, що повний аналіз випадків, як правило, неупереджений і не дуже ефективний.
AdamO

6

YXYYXYi=Xiβ+ϵi

YYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ)

ϵF

F


Те, що ви описали, - це саме мотивація пробітної моделі, а не логістична регресія.
AdamO

6
ϵi

Це здається дуже чутливим припущенням, і це було б важко перевірити. Я думаю, що логістична регресія може бути мотивованою, коли подібні розподіли помилок не дотримуються.
AdamO

2
@AdamO, проте ви мотивуєте логістичну регресію, вона все ще математично еквівалентна пороговій лінійній регресійній моделі, де помилки мають логістичний розподіл. Я погоджуюся, що це припущення може бути важко перевірити, але воно існує незалежно від того, як ви мотивуєте проблему. Я пригадую попередню відповідь на CV (я не можу розмістити її зараз), яка показала за допомогою симуляційного дослідження, що намагання сказати, чи логістична чи пробіт-модель «краще підходить» - це в основному монети, незалежно від справжньої моделі генерації даних . Я підозрюю, що логістика є більш популярною через зручну інтерпретацію.
Макрос

2
P(Yi=1)=exp(Xiβ)1+exp(Xiβ)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.