tanh vs. sigmoid у нейронній мережі

16

Я заздалегідь прошу вибачення за те, що я все-таки підходжу до цього. Я намагаюся зрозуміти плюси і мінуси використання tanh (карта від 1 до 1) проти сигмоїда (карта 0 до 1) для моєї функції активації нейрона. З мого читання це звучало як незначна річ з граничними відмінностями. На практиці у зв'язку із своїми проблемами я вважаю, що сигмоїду легше тренувати і як не дивно, сигмоїда, здається, краще знайде загальне рішення Під цим я маю на увазі, що коли сигмоїдна версія закінчується навчанням, вона добре справляється з еталонним (непідготовленим) набором даних, де танг-версія, здається, зможе отримати правильні відповіді на дані тренувань, роблячи погану роботу по довідці. Це для тієї ж мережевої архітектури.

Я маю інтуїцію, що за допомогою сигмоїди нейрону легше майже повністю вимкнутись, таким чином не забезпечуючи введення в наступні шари. Тану тут важче, оскільки йому потрібно повністю скасувати свої введення, інакше він завжди надає значення наступному шару. Можливо, ця інтуїція помилкова.

Довгий пост. Підсумок, що таке торгівля, і чи має це мати велике значення?

neural-networks

— Мастиф
джерело

23

У книзі Саймона Хайкіна "Нейронні мережі: всеосяжний фонд" є таке пояснення, з якого я цитую:

Щоб час навчання було мінімізоване, слід уникати використання ненульових середніх даних. Тепер, якщо стосується вектора сигналу застосованого до нейрона в першому прихованому шарі багатошарового персептрона, легко видалити середнє значення з кожного елемента перед його застосуванням до мережі. А як щодо сигналів, поданих до нейронів у решті прихованих та вихідних шарів мережі? Відповідь на це питання полягає у типі функції активації, що використовується в мережі. Якщо функція активації несиметрична, як у випадку сигмоїдної функції, вихід кожного нейрона обмежується інтервалом . Такий вибір вводить джерело $\bf x$ $\bf x$ $[0,1]$ систематичного упередженнядля тих нейронів, розташованих поза першим шаром мережі. Для подолання цієї проблеми нам потрібно використовувати антисиметричну функцію активації, таку як гіперболічна дотична функція. При такому останньому виборі виходу кожного нейрона дозволяється приймати як позитивні, так і негативні значення в інтервалі , і в цьому випадку, можливо, його середнє значення дорівнює нулю. Якщо підключення до мережі велике, навчання із поширенням на зворотному рівні з антисиметричними функціями активації може призвести до швидшої конвергенції, ніж аналогічний процес з несиметричними функціями активації, для чого також є емпіричні дані (LeCun et al., 1991). $[-1,1]$

Цитується посилання:

Y. LeCun, I. Kanter, SASolla: "Властивості другого порядку поверхонь помилок: час навчання та узагальнення", Досягнення в системах нейронної обробки інформації, т. 3, арк. 918-924, 1991.

Ще одна цікава посилання:

Y. LeCun, L. Bottou, G. Orr та K. Muller: " Efficient BackProp ", в Orr, G. and Muller K. (Eds), Neural Networks: Tricks of trade, Springer, 1998

— tiagotvv
джерело

Нейрони ReLU, здається, працюють досить добре, незважаючи на їх упередженість. Чи є у вас думки з цього приводу?

— Арк-кун

@ Арк-кун, я не знаю багато про нейрони ReLU, але я можу посилатись на цей документ, де автори пояснюють переваги такої функції активації. X. Glorot, A. Bordes та Y. Bengio "Глибокі розріджені випрямлячі нейромережі AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf

— tiagotvv

1

Ці дві функції активації дуже схожі, але компенсуються. У моїй оригінальній мережі не було термінів упередженості. З моменту додавання упереджень все набагато стабільніше. Виходячи з мого досвіду, я можу сказати, що одна чи інша з них може працювати краще для конкретної програми із складних, можливо, незрозумілих причин, але правильний підхід полягає у включенні термінів зміщення, щоб залежність від зміщення активації можна зменшити чи усунути.

— Мастиф
джерело

0

$\tanh$

L = - \frac{1}{н} \sum_{i} (у_{i} журнал (p_{i}) + (1 - у_{i}) журнал (1 - p_{i}))

${\cal L} = -\frac{1}{n} \sum_{i} \left(y_i \log(p_i) + (1 - y_i) \log(1-p_i)\right)$

$y_i$ $i$ $p_i$ $i$

$p_i$ $\tanh$

— Андре Хольцнер
джерело

Однак ви можете їх масштабувати. tanh (X) -1 ділиться на похідну, і не має проблеми з негативними журналами

— Pablo Arnau González