Здається, що у багатьох пакетах нейронної мережі стандартне поєднання цільової функції мінімізується з функцією активації у вихідному шарі.
Наприклад, для лінійного вихідного шару, що використовується для регресії, стандартно (і часто це лише вибір) мати функцію об'єктивної помилки. Ще одне звичайне сполучення - це логістичний вихід та втрата журналу (або перехресна ентропія). І ще одне - softmax та multi log втрати.
Використовуючи позначення, для значення попередньої активації (сума активів, зважених у попередньому шарі), для активації, для основної істини, що використовується для тренування, для індексу вихідного нейрона.
Лінійна активація йде з квадратичною помилкою
Активація йде з цільовим записом / перехресною ентропією limit
Активація Softmax йде з метою багатокласової реєстрації limit
Це я те, кого я знаю, і, напевно, є багато, про яке я досі не чув.
Здається, що втрата журналу працювала б і була б чисельно стабільною лише тоді, коли вихід та цілі знаходяться в діапазоні [0,1]. Тому, можливо, не має сенсу намагатися лінійний вихідний шар з цільовою функцією logloss. Якщо не існує більш загальної функції без виходу, яка може впоратись зі значеннями що знаходяться поза діапазоном?
Однак, це не так вже й погано, щоб спробувати сигмоподібний вихід з квадратом помилки. Він повинен бути стійким і принаймні сходитися.
Я розумію, що деяка конструкція цих пар полягає в тому, що вона робить формулу для - де - значення цільової функції - легко для зворотного поширення. Але все ж має бути можливість знайти цю похідну за допомогою інших пар. Крім того, існує багато інших функцій активації, які зазвичай не зустрічаються у вихідних шарах, але, можливо, це може бути, наприклад , і де не зрозуміло, яку об'єктивну функцію можна застосувати.tanh
Чи існують ситуації, коли розробляється архітектура нейронної мережі, що ви б або повинні використовувати "нестандартні" пари пар активації виводу та об'єктивних функцій?