Наскільки гнучким є зв’язок між цільовою функцією та функцією активації вихідного шару?


10

Здається, що у багатьох пакетах нейронної мережі стандартне поєднання цільової функції мінімізується з функцією активації у вихідному шарі.

Наприклад, для лінійного вихідного шару, що використовується для регресії, стандартно (і часто це лише вибір) мати функцію об'єктивної помилки. Ще одне звичайне сполучення - це логістичний вихід та втрата журналу (або перехресна ентропія). І ще одне - softmax та multi log втрати.

Використовуючи позначення, для значення попередньої активації (сума активів, зважених у попередньому шарі), для активації, для основної істини, що використовується для тренування, для індексу вихідного нейрона.zayi

  • Лінійна активація йде з квадратичною помилкоюai=zi12i(yiai)2

  • Активація йде з цільовим записом / перехресною ентропією limitai=11+ezii(yilog(ai)+(1yi)log(1ai))

  • Активація Softmax йде з метою багатокласової реєстрації limitai=ezijezji(yilog(ai))

Це я те, кого я знаю, і, напевно, є багато, про яке я досі не чув.

Здається, що втрата журналу працювала б і була б чисельно стабільною лише тоді, коли вихід та цілі знаходяться в діапазоні [0,1]. Тому, можливо, не має сенсу намагатися лінійний вихідний шар з цільовою функцією logloss. Якщо не існує більш загальної функції без виходу, яка може впоратись зі значеннями що знаходяться поза діапазоном?y

Однак, це не так вже й погано, щоб спробувати сигмоподібний вихід з квадратом помилки. Він повинен бути стійким і принаймні сходитися.

Я розумію, що деяка конструкція цих пар полягає в тому, що вона робить формулу для - де - значення цільової функції - легко для зворотного поширення. Але все ж має бути можливість знайти цю похідну за допомогою інших пар. Крім того, існує багато інших функцій активації, які зазвичай не зустрічаються у вихідних шарах, але, можливо, це може бути, наприклад , і де не зрозуміло, яку об'єктивну функцію можна застосувати.δEδzEtanh

Чи існують ситуації, коли розробляється архітектура нейронної мережі, що ви б або повинні використовувати "нестандартні" пари пар активації виводу та об'єктивних функцій?

Відповіді:


4

Справа не стільки в тому, яка функція активації, яку ви використовуєте, визначає, яку функцію втрати ви повинні використовувати, а в тому, якою є інтерпретація виводу.

Якщо висновок повинен бути ймовірним, то шлях - втрата журналу - це шлях.

Якщо вихід є загальним значенням, тоді середня квадратична помилка є типовим способом. Так, наприклад, якщо ваш вихідний сигнал був пікселем сірого масштабу з сірою шкалою, позначеною цифрою від 0 до 1, може бути доцільним використовувати функцію активації сигмоїдів із середньою ціллю функції помилки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.