Припустимо загалом, що ви вирішили взяти модель форми
P(y=1|X=x)=h(x;Θ)
для деякого параметра . Тоді ви просто записуєте ймовірність цього, тобтоΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
що те саме
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Тепер ви вирішили "припустити" (модель)
P(y=1|X=x)=σ(Θ0+Θ1x)
де
σ(z)=1/(1+e−z)
тому ви просто обчислите формулу ймовірності та зробите якийсь алгоритм оптимізації, щоб знайти , наприклад, метод Ньютона або будь-який інший метод на основі градієнта.argmaxΘL(Θ)
Зверніть увагу, що іноді люди кажуть, що, роблячи логістичну регресію, вони не збільшують ймовірність (як ми / ви вище), але вони мінімізують функцію втрат
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
але зауважте, що .−log(L(Θ))=l(Θ)
Це загальна закономірність машинного навчання: Практична сторона (мінімізація функцій втрат, що вимірюють, наскільки "неправильною" євристична модель) насправді дорівнює "теоретичній стороні" (моделювання явно з симболом, максимізуючи статистичні величини, наприклад ймовірність) і насправді багато моделей, які не схожі на ймовірнісні (наприклад, SVM), можуть бути переосмислені у ймовірнісному контексті і насправді є максимізацією ймовірностей.P