Я вивчаю і намагаюся реалізувати звивисті нейронні мережі, але, мабуть, це питання стосується взагалі багатошарових перцептронів.
Вихідні нейрони в моїй мережі представляють активацію кожного класу: найактивніший нейрон відповідає передбачуваному класу для заданого входу. Щоб розглянути можливість перехресної ентропії на навчання, я додаю шар softmax в кінці мережі, так що значення активації кожного нейрона інтерпретується як значення ймовірності.
Моє запитання: чи повинні нейрони у вихідному шарі застосовувати до входу нелінійну функцію? Моя інтуїція полягає в тому, що це не потрібно:
- якщо вхід до -го вихідного нейрона являє собою крапковий добуток між вектором (що надходить з попереднього шару) та вагами для цього нейрона,x T θ i x θ i
- і якщо я використовую монотонну нелінійну функцію, як сигмоїд або ReLU
- то більший вихід активації все ще буде відповідати найбільшому , тому з цієї точки зору нелінійна функція не змінила б прогнозування.
Чи щось не так у цьому тлумаченні? Чи є якісь фактори навчання, які я не помічаю, які роблять вихід нелінійним необхідним?
І якщо я маю рацію, чи змінилось би щось, якщо замість сигмоїдної функції я використовую функцію ReLU , яка не є суто монотонною?
EDIT
З посиланням на відповідь Карела, відповідь якої в основному була "це залежить", ось більш детальний опис моєї мережі та сумнівів:
Припустимо, у мене є N прихованих шарів, а мій вихідний шар - це просто softmax шар над набором нейронів, що представляють класи (тому мій очікуваний вихід - це ймовірність того, що вхідні дані належать кожному класу). Якщо припустити, що перші шари N-1 мають нелінійні нейрони, яка різниця між використанням нелінійних проти лінійних нейронів у N-му прихованому шарі?