Я переживаю проблеми письмових завдань класу глибокого навчання в Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln
Я намагаюся зрозуміти відповідь для 3а, де вони шукають похідне від вектора для центрального слова.
Припустимо, вам надано прогнозований вектор слова що відповідає центральному слову c для skipgram, а передбачення слів виконується за допомогою функції softmax, знайденої в моделях word2vec.
Де w позначає w-е слово і(w = 1,.,., w) - це слова «вихідні» слова для всіх слів у лексиці. Припустимо, вартість перехресної ентропії застосовується до цього прогнозу та слова o - очікуване слово.
Де є матрицею всіх вихідних векторів, і нехай бути стовпчастим вектором прогнозування слів програмного забезпечення та y - теплим ярликом, який також є стовпчиком.
Де перехресна ентропія
Тож відповідь на градієнт для центрального вектора є
Чи міг би хтось показати мені кроки, щоб дійти до цього? Я використовую це питання як посилання Похідна від поперечної втрати ентропії у word2vec, але я конкретно хочу знати представництво.