Спочатку давайте викладемо, що у нас є, і наші припущення щодо форм різних векторів. Дозволяє,
- | W| бути кількістю слів у словнику
- у і у^ бути стовпчиковими векторами форми | W| х 1
- уi і vj бути стовпчиковими векторами форми D X 1 (D = розмір вкладень)
- у бути одним гарячим кодованим стовпчиком векторної форми | W| х 1
- у^ бути стовпчиком векторної форми прогнозування softmax | W| х 1
- у^i= Р( i | c ) =e x p (уТivc)∑Ww = 1e x p (уТшvc)
- Перехресні втрати ентропії: J= -∑Wi = 1уiл о г(уi^)
- U= [у1,у2, . . . ,ук, . . .уW] бути матрицею, що складається з ук стовпчикові вектори.
Тепер ми можемо писати
J= -∑i = 1Wуiл о г(e x p (уТivc)∑Ww = 1e x p (уТшvc))
Спрощення,
J= -∑i = 1Wуi[уТivc- л о г(∑w = 1We x p (уТшvc) ) ]
Тепер ми це знаємо
у однокольорово закодований, тому всі його елементи дорівнюють нулю, крім того, який є, скажімо,
кт годпокажчик. Це означає, що в підсумовуванні вище, що відповідає, існує лише один ненульовий доданок
ука всі інші терміни в підсумовуванні - нулі. Тож вартість також може бути записана так:
J= -ук[уТкvc- л о г(∑w = 1We x p (уТшvc) ) ]
Примітка: вище
ук дорівнює 1.
Рішення для ∂J∂vc :
∂J∂vc= - [ук-∑Ww = 1e x p (уТшvc)уш∑Wх = 1e x p (уТхvc)]
Які можна переставити як:
∂J∂vc=∑w = 1W(e x p (уТшvc)∑Wх = 1e x p (уТхvc)уш) -ук
Використовуючи визначення (6), ми можемо переписати вищевказане рівняння як:
∂J∂vc=∑w = 1W(у^шуш) -ук
Тепер давайте подивимось, як це можна записати в нотації матриці. Зауважте, що:
- ук можна записати у вигляді множення матричного вектора: U. у
- І ∑Ww = 1(у^шуш) являє собою лінійне перетворення векторів уш в U масштабується у^швідповідно. Це знову можна записати якU.у^
Отже, всю справу можна коротко записати так:
U[у^- у]
Наостанок зазначимо, що ми припускали уis бути векторами стовпців. Якби ми починали з векторів рядків, ми отримали бUТ[у^- у], те саме, що ви шукали.