У машинній літературі для вивчення розподілу ймовірностей часто використовується функція softmax. Чи є для цього причина? Чому не використовується інша функція?
У машинній літературі для вивчення розподілу ймовірностей часто використовується функція softmax. Чи є для цього причина? Чому не використовується інша функція?
Відповіді:
З точки зору оптимізації, він має деякі приємні властивості з точки зору диференційованості. Для багатьох проблем з машинним навчанням добре підходить для класифікації 1-з-N.
З точки зору глибокого навчання: Можна також стверджувати, що теоретично використання глибокої мережі з класифікатором softmax зверху може представляти будь-яку функцію ймовірності N класу над простором функцій, оскільки MLP мають властивість універсального наближення .
Softmax - це також узагальнення логістичної сигмоїдної функції, і тому вона має властивості сигмоїди, такі як легкість диференціювання та знаходження в інтервалі 0-1. Вихід логістичної сигмоїдної функції також знаходиться між 0 і 1, тому, природно, підходящий вибір для представлення ймовірності. Його похідна також перебільшується з точки зору власного випуску. Однак якщо у вашої функції є векторний вихід, вам потрібно скористатися функцією Softmax, щоб отримати розподіл ймовірностей над вихідним вектором. Є деякі інші переваги використання Softmax, про які згадував Indie AI, хоча це не обов'язково має нічого спільного з теорією універсального наближення, оскільки Softmax не є функцією, що використовується лише для нейронних мереж.
Список літератури