Я намагаюся пропрацювати свій шлях через перший набір проблем навчального матеріалу онлайн-класу cs224d в Інтернеті, і у мене виникають проблеми з проблемою 3A: При використанні пропуску грамової моделі word2vec з функцією прогнозування softmax і функцією перехресної ентропії втрати ми хочемо обчислити градієнти відносно прогнозованих векторів слів. Отже, враховуючи функцію softmax:
та перехресна ентропійна функція:
нам потрібно обчислити
Мої кроки такі:
тепер даний - один гарячий вектор, і я - правильний клас:
Це правильно чи це можна було би спростити далі? Я хочу спробувати переконатися, що я на вірному шляху, оскільки рішення задач не розміщуються в Інтернеті. Плюс правильність написання письмових завдань важлива для того, щоб вміти правильно виконувати завдання програмування.