9
Навіщо використовувати softmax на відміну від стандартної нормалізації?
У вихідному шарі нейронної мережі типово використовувати функцію softmax для наближення розподілу ймовірностей: Це обчислити дорого через показники. Чому б просто не виконати перетворення Z так, щоб усі результати були позитивними, а потім нормалізувались, поділивши всі результати на суму всіх результатів?