ОП помилково вважає, що зв'язок між цими двома функціями обумовлений кількістю вибірок (тобто одиничний проти всіх). Однак фактична відмінність полягає лише в тому, як ми вибираємо свої навчальні етикетки.
У разі двійкової класифікації ми можемо призначити мітки або .y=±1y=0,1
Як уже було зазначено, логістична функція є хорошим вибором, оскільки вона має форму ймовірності, тобто та як . Якщо виберемо мітки ми можемо призначити їх σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
який можна записати більш компактно як .P(y|z)=σ(z)y(1−σ(z))1−y
Простіше максимально підвищити ймовірність журналу. Максимізація ймовірності журналу - це те саме, що мінімізувати негативну ймовірність журналу. Для зразків , взявши природний логарифм та деяке спрощення, ми з'ясуємо:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
Повну інформацію та додаткову інформацію можна знайти в цьому зошиті з юпітером . З іншого боку, ми, можливо, використали мітки . Тоді досить очевидно, що ми можемо призначитиy=±1
P(y|z)=σ(yz).
Очевидно також, що . Дотримуючись тих же кроків, що і раніше, ми мінімізуємо в цьому випадку функцію втратP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
Де останній крок слідує після того, як ми беремо зворотну реакцію, яку індукує негативний знак. Хоча ми не повинні рівняти ці дві форми, враховуючи, що в кожній формі приймає різні значення, проте ці дві рівносильні:y
−yizi+log(1+ezi)≡log(1+e−yzj)
Випадок є тривіальним для показу. Якщо , то з лівої сторони, а в правій частині.yi=1yi≠1yi=0yi=−1
Хоча можуть бути принципові причини, чому ми маємо дві різні форми (див. Чому існують дві різні логістичні формулювання збитків / позначення? ), Одна причина вибору першої - це з практичних міркувань. У першому ми можемо використовувати властивість для тривіального обчислення та , обидва вони необхідні для аналізу конвергенції (тобто для визначення опуклості функції втрат шляхом обчислення Гессі ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)