Проблема:
Отримайте градієнт щодо вхідного шару для нейронної мережі одного прихованого шару, використовуючи сигмоїд для введення -> прихований, софтмакс для прихованого -> виводу, з поперечною втратою ентропії.
Я можу пройти більшу частину виведення, використовуючи правило ланцюга, але я не впевнений, як насправді "з'єднати" їх разом.
Визначте деякі позначення
, - сигмоїдна функція
,
, - функція softmax
, справжній ярлик "гарячий вектор"
Тоді за правилом ланцюга,
Індивідуальні градієнти:
Тепер ми повинні з'єднати визначення разом. У одно змінній це легко, ми просто множимо все разом. У векторах я не впевнений, чи використовувати мультиплікаційне множення чи матричне множення.
Де - множинне множення векторів, а - матричне множення. Ця комбінація операцій - це єдиний спосіб, по якому я міг би з'єднати їх разом, щоб отримати векторний розмірний розмір , який я знаю, що .
Моє запитання: який принциповий спосіб я зрозуміти, який оператор використовувати? Мене конкретно бентежить потреба в елементі між і .
Дякую!