Ось як я б виразив крос-ентропійну втрату :
L(X,Y)=−1n∑i=1ny(i)lna(x(i))+(1−y(i))ln(1−a(x(i)))
Тут - це набір прикладів введення в навчальному наборі даних, а - це відповідний набір міток для цих прикладів введення. являє собою вихід нейронної мережі з урахуванням вхідного .X={x(1),…,x(n)}Y={y(1),…,y(n)}a(x)x
Кожен з або 0, або 1, і активація виходу як правило, обмежується відкритим інтервалом (0, 1) за допомогою логістичної сигмоїди . Наприклад, для одношарової мережі (що еквівалентно логістичній регресії) активація дається через де - a вагова матриця і - вектор зміщення. Для декількох шарів ви можете розширити функцію активації на щось на зразок де і - вагова матриця і зміщення першого шару, аy(i)a(x)
a(x)=11+e−Wx−b
Wba(x)=11+e−Wz(x)−bz(x)=11+e−Vx−c
Vcz(x) - це активація прихованого шару в мережі.
Я використав (i) суперскрипт для позначення прикладів, тому що виявив, що він досить ефективний в курсі машинного навчання Ендрю Нг; інколи люди висловлюють приклади як стовпці чи рядки в матриці, але ідея залишається такою ж.