Розуміння логістичної регресії та ймовірності


12

Як насправді працює оцінка параметрів / Навчання логістичній регресії? Я спробую поставити те, що у мене поки що.

  1. Вихід - y вихід логістичної функції у вигляді ймовірності залежно від значення x:
    P(y=1|x)=11+eωTxσ(ωTx)
    P(y=0|x)=1P(y=1|x)=111+eωTx
  2. Для одного виміру так звані коефіцієнти визначаються наступним чином:
    p(y=1|x)1p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x
  3. Тепер додаємо logфункції для отримання W_0 та W_1 у лінійному вигляді:
    Logit(y)=log(p(y=1|x)1p(y=1|x))=ω0+ω1x
  4. Тепер до проблемної частини Використання ймовірності (Великий X - y) Чи може хтось сказати, чому ми розглядаємо ймовірність y = 1 вдвічі? оскільки:
    L(X|P)=i=1,yi=1NP(xi)i=1,yi=0N(1P(xi))
    P(y=0|x)=1P(y=1|x)

і як отримати від нього значення ω?

Відповіді:


10

Припустимо загалом, що ви вирішили взяти модель форми

P(y=1|X=x)=h(x;Θ)

для деякого параметра . Тоді ви просто записуєте ймовірність цього, тобтоΘ

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0P(y=0|x=x;Θ)

що те саме

L(Θ)=i{1,...,N},yi=1P(y=1|x=x;Θ)i{1,...,N},yi=0(1P(y=1|x=x;Θ))

Тепер ви вирішили "припустити" (модель)

P(y=1|X=x)=σ(Θ0+Θ1x)

де

σ(z)=1/(1+ez)

тому ви просто обчислите формулу ймовірності та зробите якийсь алгоритм оптимізації, щоб знайти , наприклад, метод Ньютона або будь-який інший метод на основі градієнта.argmaxΘL(Θ)

Зверніть увагу, що іноді люди кажуть, що, роблячи логістичну регресію, вони не збільшують ймовірність (як ми / ви вище), але вони мінімізують функцію втрат

l(Θ)=i=1Nyilog(P(Yi=1|X=x;Θ))+(1yi)log(P(Yi=0|X=x;Θ))

але зауважте, що .log(L(Θ))=l(Θ)

Це загальна закономірність машинного навчання: Практична сторона (мінімізація функцій втрат, що вимірюють, наскільки "неправильною" євристична модель) насправді дорівнює "теоретичній стороні" (моделювання явно з симболом, максимізуючи статистичні величини, наприклад ймовірність) і насправді багато моделей, які не схожі на ймовірнісні (наприклад, SVM), можуть бути переосмислені у ймовірнісному контексті і насправді є максимізацією ймовірностей.P


@Werner дякую за вашу відповідь. Але мені все-таки потрібно трохи уточнити. 1, чи можете ви пояснити, на чому існує 2 у визначенні оскільки, наскільки я зрозумів це, я зацікавлений у випадку . і як можна отримати значення та завдяки великій допомозі! L(θ)yi=1ω1ω0
Двигун

@Engine: Велике "пі" - це продукт ... як велика сигма - це сума ... ти розумієш чи потрібне ще роз'яснення щодо цього? З другого питання: Скажімо, ми хочемо мінімізувати функцію і ми починаємо з але припустимо, що ми не знаємо / не можемо виразити / не можемо уявити як це складний. Тепер похідна від дорівнює . Цікаво, що якщо ми праворуч від мінімального він вказує праворуч, а якщо ми ліворуч від нього, то він вказує ліворуч. Математично похідна вказує на напрям "найсильнішого сходження"Σf(x)=x2x=3fff=2xx=0
Фабіан Вернер,

@Engine: у більшості вимірів ви замінюєте похідну градієнтом, тобто ви починаєте з випадкової точки і обчислюєте градієнт у і якщо ви хочете отримати максимізацію, то наступна точка є . Тоді ви обчислюєте а наступний - тощо. Це називається градієнтним підйомом / спуском і є найпоширенішою технікою досягнення максимальної функції. Тепер ви робите це з або в позначенніx0fxx1x1=x0+f(x0)f(x1)xx2=x1+f(x1)L(Θ)L(ω)ωL

y=1ωωy=1y=1 y=0
Фабіан Вернер

8

,yi=1,yi=0

ωω


yi=0ω

i=1,y=1Ni=1Ny=1

Існує багато можливих алгоритмів для максимізації функції ймовірності. Найбільш поширений метод , метод Ньютона-Рафсона , дійсно включає обчислення першої та другої похідних.
Maarten Buis
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.