Градієнти для skipgram word2vec

Я переживаю проблеми письмових завдань класу глибокого навчання в Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln

Я намагаюся зрозуміти відповідь для 3а, де вони шукають похідне від вектора для центрального слова.

Припустимо, вам надано прогнозований вектор слова $v_{c}$ що відповідає центральному слову c для skipgram, а передбачення слів виконується за допомогою функції softmax, знайденої в моделях word2vec.

$\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})}$

Де w позначає w-е слово і $u_w$ (w = 1,.,., w) - це слова «вихідні» слова для всіх слів у лексиці. Припустимо, вартість перехресної ентропії застосовується до цього прогнозу та слова o - очікуване слово.

Де $U = [u_1,u_2, · · · ,u_W ]$ є матрицею всіх вихідних векторів, і нехай $\hat{y}$ бути стовпчастим вектором прогнозування слів програмного забезпечення та y - теплим ярликом, який також є стовпчиком.

Де перехресна ентропія $CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i)$

Тож відповідь на градієнт для центрального вектора є $\frac{∂J}{∂v_c}= U^T(\hat{y} − y).$

Чи міг би хтось показати мені кроки, щоб дійти до цього? Я використовую це питання як посилання Похідна від поперечної втрати ентропії у word2vec, але я конкретно хочу знати $U^T(\hat{y} − y).$ представництво.

— Джейк фонд
джерело

Спочатку давайте викладемо, що у нас є, і наші припущення щодо форм різних векторів. Дозволяє,

$|W|$ бути кількістю слів у словнику
$y$ і $\hat{y}$ бути стовпчиковими векторами форми $|W|$ х 1
$u_i$ і $v_j$ бути стовпчиковими векторами форми $D$ X 1 ( $D$ = розмір вкладень)
$y$ бути одним гарячим кодованим стовпчиком векторної форми $|W|$ х 1
$\hat{y}$ бути стовпчиком векторної форми прогнозування softmax $|W|$ х 1
$\hat{y}_i = P(i|c) = \frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)}$
Перехресні втрати ентропії: $J = -\sum_{i=1}^Wy_ilog({\hat{y_i}})$
$U = [u_1, u_2, ...,u_k, ...u_W]$ бути матрицею, що складається з $u_k$ стовпчикові вектори.

Тепер ми можемо писати

J = - \sum_{i = 1}^{W} у_{i} л о г (\frac{е х p (у_{i}^{Т} v_{c})}{\sum_{ш = 1}^{W} е х p (у_{ш}^{Т} v_{c})})

$J = - \sum_{i=1}^W y_i log(\frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)})$ Спрощення,

J = - \sum_{i = 1}^{W} у_{i} [у_{i}^{Т} v_{c} - л о г (\sum_{ш = 1}^{W} е х p (у_{ш}^{Т} v_{c}))]

$J = - \sum_{i=1}^Wy_i[u_i^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$ Тепер ми це знаємо

y

$y$ однокольорово закодований, тому всі його елементи дорівнюють нулю, крім того, який є, скажімо,

k^{t h}

$k^{th}$ покажчик. Це означає, що в підсумовуванні вище, що відповідає, існує лише один ненульовий доданок

y_{k}

$y_k$ а всі інші терміни в підсумовуванні - нулі. Тож вартість також може бути записана так:

J = - у_{к} [у_{к}^{Т} v_{c} - л о г (\sum_{ш = 1}^{W} е х p (у_{ш}^{Т} v_{c}))]

$J = -y_k[u_k^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$ Примітка: вище

y_{k}

$y_k$ дорівнює 1.

Рішення для $\frac{\partial J}{\partial v_c}$ :

\frac{\partial J}{\partial v_{c}} = - [у_{к} - \frac{\sum_{ш = 1}^{W} е х p (у_{ш}^{Т} v_{c}) у_{ш}}{\sum_{х = 1}^{W} е х p (у_{х}^{Т} v_{c})}]

$\frac{\partial J}{\partial v_c} = -[u_k - \frac{\sum_{w=1}^Wexp(u_w^Tv_c)u_w}{\sum_{x=1}^Wexp(u_x^Tv_c)}]$

Які можна переставити як:

\frac{\partial J}{\partial v_{c}} = \sum_{ш = 1}^{W} (\frac{е х p (у_{ш}^{Т} v_{c})}{\sum_{х = 1}^{W} е х p (у_{х}^{Т} v_{c})} у_{ш}) - у_{к}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\frac{exp(u_w^Tv_c)}{\sum_{x=1}^W exp(u_x^Tv_c)}u_w) - u_k$ Використовуючи визначення (6), ми можемо переписати вищевказане рівняння як:

\frac{\partial J}{\partial v_{c}} = \sum_{ш = 1}^{W} ({\hat{у}}_{ш} у_{ш}) - у_{к}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\hat{y}_w u_w) - u_k$

Тепер давайте подивимось, як це можна записати в нотації матриці. Зауважте, що:

$u_k$ можна записати у вигляді множення матричного вектора: $U.y$
І $\sum_{w=1}^W (\hat{y}_w u_w)$ являє собою лінійне перетворення векторів $u_w$ в $U$ масштабується $\hat{y}_w$ відповідно. Це знову можна записати як $U.\hat{y}$

Отже, всю справу можна коротко записати так:

U [\hat{у} - у]

$U[\hat{y} -y]$

Наостанок зазначимо, що ми припускали $u_i$ s бути векторами стовпців. Якби ми починали з векторів рядків, ми отримали б $U^T[\hat{y} -y]$ , те саме, що ви шукали.

— Сачин Тяги
джерело

Просто хотів сказати, що це чудове пояснення походження! Це дуже допомагає математикам-присоскам, як я. Дякую!

— Ерік Кім

+1 для дивовижного пояснення!

— брагбой

Я не розумію, чому таке виведення:

\frac{\partial}{\partial Б} А^{Т} Б = А

$\frac{\partial}{\partial B} A^TB = A$

— Parth Tamane

@ParthTamane Погляньте на це - math.stackexchange.com/questions/3270789/…

— Sachin