Я намагаюся додати шар softmax до нейронної мережі, що навчається із зворотним розповсюдженням, тому я намагаюся обчислити його градієнт.
SoftMax вихід де- номер вихідного нейрона.
Якщо я виведу це, то отримаю
Подібно до логістичної регресії. Однак це неправильно, оскільки моя чисельна градієнтна перевірка не вдається.
Що я роблю неправильно? У мене була думка, що мені потрібно обчислити також поперечні похідні (тобто ), але я не впевнений, як це зробити і зберегти розмірність градієнта однаковою, щоб вона підходила для процесу зворотного поширення.