Негативна ймовірність журналу (ек.80) також відома як багатошарова перехресна ентропія (посилання: Розпізнавання шаблонів та машинне навчання Розділ 4.3.4), оскільки вони насправді є двома різними інтерпретаціями однієї і тієї ж формули.
eq.57 - негативна ймовірність журналу розподілу Бернуллі, тоді як eq.80 - негативна ймовірність логарифмічного розподілу з одним спостереженням (багатокласова версія Бернуллі).
Для проблем бінарної класифікації функція softmax виводить два значення (між 0 і 1 і сума до 1), щоб дати прогнозування кожного класу. У той час як сигмоїдна функція видає одне значення (між 0 і 1), щоб дати прогнозування одного класу (тому інший клас дорівнює 1-p).
Тому еквівалент 80 не може бути застосований безпосередньо до сигмоїдного виходу, хоча це, по суті, ті ж втрати, що і урівень.57.
Дивіться також цю відповідь .
Далі наводимо просту ілюстрацію зв'язку між (сигмоїд + бінарна перехресна ентропія) та (softmax + багатошарова перехресна ентропія) для проблем бінарної класифікації.
Скажімо, ми приймаємо як точку розбиття двох категорій, для сигмоїдного виведення це випливає,0,5
w x + b = 0
σ( ш x + b ) = 0,5
w x + b = 0
що є межею рішення у просторі функцій.
Для виведення програмного забезпечення випливає
тому вона залишається тією ж моделлю, хоча вдвічі більше параметрів.
еш1x + b1еш1x + b1+ еш2x + b2= 0,5
еш1х+ b1= еш2х +b2
ш1x + b1= ш2x + b2
( ш1- ш2) x + ( b1- б2) = 0
Далі показані межі рішення, отримані за допомогою тез двох методів, майже однакових.