Вірогідність перехресної ентропії або журналу у вихідному шарі


31

Я читаю цю сторінку: http://neuralnetworksanddeeplearning.com/chap3.html

і було сказано, що сигмоїдний вихідний шар з перехресною ентропією досить подібний з вихідним шаром softmax з вірогідністю лог.

що трапиться, якщо я використовую сигмоїд з вірогідністю лога або softmax з перехресною ентропією у вихідному шарі? це добре? тому що я бачу, що між рівнями між перехресною ентропією є лише незначна різниця (eq.57):

С=-1нх(уlnа+(1-у)ln(1-а))

ймовірність журналу (екв. 80):

С=-1нх(lnауL)

Відповіді:


51

Негативна ймовірність журналу (ек.80) також відома як багатошарова перехресна ентропія (посилання: Розпізнавання шаблонів та машинне навчання Розділ 4.3.4), оскільки вони насправді є двома різними інтерпретаціями однієї і тієї ж формули.

eq.57 - негативна ймовірність журналу розподілу Бернуллі, тоді як eq.80 - негативна ймовірність логарифмічного розподілу з одним спостереженням (багатокласова версія Бернуллі).

Для проблем бінарної класифікації функція softmax виводить два значення (між 0 і 1 і сума до 1), щоб дати прогнозування кожного класу. У той час як сигмоїдна функція видає одне значення (між 0 і 1), щоб дати прогнозування одного класу (тому інший клас дорівнює 1-p).

Тому еквівалент 80 не може бути застосований безпосередньо до сигмоїдного виходу, хоча це, по суті, ті ж втрати, що і урівень.57.

Дивіться також цю відповідь .


Далі наводимо просту ілюстрацію зв'язку між (сигмоїд + бінарна перехресна ентропія) та (softmax + багатошарова перехресна ентропія) для проблем бінарної класифікації.

Скажімо, ми приймаємо як точку розбиття двох категорій, для сигмоїдного виведення це випливає,0,5

w x + b = 0

σ(шх+б)=0,5
шх+б=0
що є межею рішення у просторі функцій.

Для виведення програмного забезпечення випливає тому вона залишається тією ж моделлю, хоча вдвічі більше параметрів.

еш1х+б1еш1х+б1+еш2х+б2=0,5
еш1х+б1=еш2х+б2
ш1х+б1=ш2х+б2
(ш1-ш2)х+(б1-б2)=0

Далі показані межі рішення, отримані за допомогою тез двох методів, майже однакових.


На які рівняння ви посилаєтесь? У книзі рівняння нумеруються по-різному. Може, це конкретне видання книги? Ви можете уточнити це? Я переглядаю книгу на сайті users.isr.ist.utl.pt/~wurmd/Livros/school/… , стор. 209 (розділ 4.3.4).
nbro

@nbro ах вибачте за плутанину, я мав на увазі рівняння на пов’язаній сторінці, наведені у питанні.
dontloo
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.