Я можу запізнитися на вечірку, але, здається, тут є якісь речі, які потрібно прояснити.
g(x)∂C∂zCz
C(y,g(z))=12(y−g(z))2g(x)=x∂C(y,g(z))∂z=∂C(y,g(z))∂g(z)⋅∂g(z)∂z=∂∂g(z)(12(y−g(z))2)⋅∂∂z(z)=−(y−g(z))⋅1=g(z)−y
∂C∂z
∂C∂z
По-друге, я хотів би додати, що існує багато функцій активації, які можна використовувати для прихованих шарів. Сигмоїди (як логістична функція та гіперболічна дотична) справді добре працюють, але, як вказує Джатін , вони страждають від зникаючих градієнтів, коли ваші мережі стають занадто глибокими. У такому випадку ReLU стали популярними. Хоча хотілося б наголосити на тому, що існує багато інших функцій активації, і різні дослідники продовжують шукати нові (наприклад, Експоненціальні лінійні одиниці (ELU), лінійні одиниці помилок Гаусса (GELU), ...) з різними / кращі властивості
На закінчення: Шукаючи найкращі функції активації, просто будьте креативними. Спробуйте різні речі та подивіться, які комбінації призводять до найкращого результату.
Додаток: Щоб отримати більше пар функцій втрат та активацій, ви, мабуть, хочете шукати (канонічні) функції зв’язку