Важливість вузла зміщення в нейронних мережах


19

Мені цікаво знати, наскільки важливим є упереджений вузол для ефективності сучасних нейронних мереж. Я легко можу зрозуміти, що це може бути важливо в неглибокій мережі з лише кількома вхідними змінними. Однак у сучасних нейронних мереж, таких як у глибокому навчанні, часто є велика кількість вхідних змінних, щоб вирішити, чи спрацьовує певний нейрон. Чи просто їх видалення, наприклад, LeNet5 або ImageNet, матиме реальний вплив взагалі?


@gung - я бачив, що ви відредагували заголовок, щоб використовувати фразу "упереджений вузол". Мені цікаво, чому ви віддаєте перевагу цій назві? Я ніколи раніше не чув цього використання. Більше того, видається заплутаним використання слова "вузол", коли зміщення не є окремим вузлом у мережі.
пір

2
Якщо вам це не подобається, ви можете відмовитись від редагування, мої вибачення. Я завжди вважав, що це ім'я досить стандартне, хоча я не грав у ж / дН протягом багатьох років, а деякі називають це "нейрон зсуву". FWIW, "упередженість" є дещо неоднозначною у статистиці / ML; найчастіше це стосується оцінювача, розподіл вибірки якого не зосереджено на справжньому значенні параметра, або на прогнозну функцію / передбачуване значення, що відрізняється від істинної функції / середнього значення тощо, тоді як вузол зміщення є певною частиною АНН.
gung - Відновіть Моніку

2
Це власне вузол - принаймні в тому сенсі, що будь-який з них - у мережі. Наприклад, див. Чорні вузли на цьому зображенні .
gung - Відновіть Моніку

Гаразд, це має сенс - це правда, що "упередженість" досить неоднозначна. Дякую за пояснення.
бенкет

1
Для нейронів одиниця зміщення здається екстремальною стрільбою, це відбувається в природі.
користувач3927612

Відповіді:


15

Усунення зміщення обов'язково вплине на продуктивність, і ось чому ...

Кожен нейрон подібний до простої логістичної регресії, і у вас . Вхідні значення множать на ваги, і зміщення впливає на початковий рівень розсікання сигмоподібної функції (танх тощо), що призводить до бажаної нелінійності.у=σ(Wх+б)

Наприклад, припустимо, що ви хочете, щоб нейрон спрацював коли всі вхідні пікселі чорні x 0 . Якщо немає зміщення незалежно від того , що вага W ви, враховуючи рівняння у = σ ( W х ) нейрон буде завжди вогонь у 0,5 .у1х0Wу=σ(Wх)у0,5

Тому, видаливши терміни зміщення, ви значно знизили б роботу вашої нейронної мережі.


2
Дякую, це має певний сенс. Я думаю, що, хоча більшість сучасних мереж використовують ReLU як функцію активації (див., Наприклад, paper.nips.cc/paper/4824-imagenet ), це все одно може бути актуальним, якщо мережа потрібна для запуску, коли всі вхідні пікселі чорні. ReLU визначається як f (x) = max (0, x).
пір

точно! це той самий випадок ...
Янніс Ассаель

4
у1х0х0у0,5

2
Хоча я погоджуюся з теорією, варто зазначити, що при сучасних великих мережах шанси отримати вхід з усіма нулями незначні. Це також спирається на припущення, що мережа хотіла б запустити 1 - глибокі мережі, швидше за все, не піклуватимуться про вихід одного нейрона - частково саме тому випадання настільки популярне для регуляторних мереж.
Макс Гордон

2
@MaxGordon має рацію. Ця відповідь не стосується цього питання. Спробуйте видалити упередження з великої мережі, і ви побачите, що це має дуже мало значення.
Ніл Г

10

Я не згоден з іншою відповіддю у конкретному контексті вашого запитання. Так, вузол зміщення має значення в невеликій мережі. Однак у великій моделі видалення зміщених входів має дуже малу різницю, оскільки кожен вузол може зробити вузол зміщення із середньої активації всіх його входів, що за законом великих чисел буде приблизно нормальним. На першому шарі можливість цього відбувається залежить від вашого розподілу вводу. Наприклад, для MNIST середня активація входу є приблизно постійною.

У невеликій мережі, звичайно, вам потрібен упереджений вхід, але у великій мережі видалення його майже не має значення. (Але чому б ви її видалили?)


3

Я б прокоментував відповідь @ NeilG, якщо мені вистачило репутації, але на жаль ...

Я не згоден з вами, Ніл, з цим. Ти кажеш:

... середня активація всіх його входів, що за законом великих чисел буде приблизно нормальним.

Я б заперечував проти цього і сказав, що закон великої кількості вимагає, щоб усі спостереження не залежали одне від одного. Це дуже не так у чомусь на зразок нейронних мереж. Навіть якщо кожна активація нормально розподілена, якщо ви бачите одне вхідне значення як надзвичайно високе, воно змінює ймовірність усіх інших входів. Таким чином, "спостереження", в даному випадку, вхідні дані, не є незалежними, і закон великих чисел не застосовується.

Якщо я не розумію вашої відповіді.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.