Хрест ентропії формула приймає в двох розподілів, p(x) , дійсний розподіл, і q(x) , за оцінками , розподілу, визначених над дискретної змінної x і задається
H(p,q)=−∑∀xp(x)log(q(x))
Для нейронної мережі обчислення не залежить від наступного:
Який шар був використаний.
Який тип активації був використаний - хоча багато активацій не будуть сумісні з обчисленням, оскільки їхні результати не інтерпретуються як ймовірності (тобто їхні результати негативні, більше 1, або не дорівнюють 1). Softmax часто використовується для багатокласової класифікації, оскільки гарантує добре функціонування розподілу ймовірностей.
Для нейронної мережі, ви зазвичай бачите рівняння , записане в формі , де y є вектор підсупутникових і y^ інше значення , приймається безпосередньо від виходу останнього шару) є оцінкою. Для одного прикладу це виглядатиме так:
L=−y⋅log(y^)
де ⋅ добуток векторної крапки.
Ваш приклад землі істина y дають всі ймовірності першої величину, а інші значення рівні нуль, так що ми можемо їх ігнорувати, і просто використовувати термін відповідності з ваших оцінок уy^
L=−(1×log(0.1)+0×log(0.5)+...)
L=−log(0.1)≈2.303
Важливий момент із коментарів
Це означає, що втрата була б однаковою, незалежно від того, якщо прогнози становлять [0.1,0.5,0.1,0.1,0.2] або [0.1,0.6,0.1,0.1,0.1] ?
Так, це ключова особливість багатокласового журналу, він винагороджує / карає ймовірності лише правильних класів. Значення не залежить від розподілу решти ймовірності між неправильними класами.
Ви часто будете бачити це рівняння в середньому на всіх прикладах як функцію витрат . Він не завжди суворо дотримується в описах, але зазвичай функція втрат нижчого рівня і описує, як окремий екземпляр або компонент визначає значення помилки, в той час як функція витрат є вищим рівнем і описує, як оцінюється повна система для оптимізації. Функція вартості, заснована на втраті журналу багатокласового для набору даних розміром N може виглядати так:
J= - 1N( ∑i = 1Nуi⋅ журнал( у^i) )
Багато реалізацій вимагають, щоб ваші основні значення правди були закодовані (з єдиним істинним класом), оскільки це дозволяє додатково оптимізувати. Однак, в принципі, перехресні ентропійні втрати можна розрахувати - та оптимізувати - коли це не так.