Яка роль зміщення в нейронних мережах?


806

Мені відомо про спуск градієнта та алгоритм розповсюдження назад. Що я не розумію: коли важливо використовувати ухил і як ви його використовуєте?

Наприклад, коли відображається ANDфункція, коли я використовую 2 входи та 1 вихід, вона не дає правильних ваг, однак, коли я використовую 3 входи (1 з яких є зміщенням), він дає правильні ваги.


17
Ознайомтесь із цим запитанням: stackoverflow.com/questions/1697243/help-with-perceptron для прикладу актуальної проблеми, коли ОП не використовує термін упередження
Amro

6
Ось приємний приклад в Python, чому важливо зміщення :) stackoverflow.com/questions/38248657/…
мінерали

3
Ось чудова стаття, яка сповнена математики заднього плану
Енді

Відповіді:


1359

Я думаю, що упередження майже завжди корисні. Фактично, значення зміщення дозволяє перенести функцію активації вліво або вправо , що може бути критично важливим для успішного навчання.

Це може допомогти переглянути простий приклад. Розглянемо цю мережу з 1 входом та 1 вихід, яка не має зміщення:

проста мережа

Вихід мережі обчислюється шляхом множення входу (x) на вагу (w 0 ) і передачі результату через якусь функцію активації (наприклад, сигмоподібну функцію.)

Ось функція, яку обчислює ця мережа, для різних значень w 0 :

мережевий вихід з урахуванням різних ваг w0

Зміна ваги w 0 по суті змінює "крутизну" сигмоїди. Це корисно, але що робити, якщо ви хотіли, щоб мережа виводила 0, коли х дорівнює 2? Просто зміна крутості сигмоїди насправді не спрацює - ви хочете мати змогу змістити всю криву вправо .

Саме це дозволяє зробити упередженість. Якщо ми додамо упередження до цієї мережі, наприклад:

проста мережа з ухилом

... тоді вихід мережі стає sig (w 0 * x + w 1 * 1.0). Ось як виглядає вихід мережі для різних значень w 1 :

мережевий вихід з урахуванням різної ваги w1

Маючи вагу -5 для w 1 зміщує криву вправо, що дозволяє нам мати мережу, яка видає 0, коли х дорівнює 2.


6
@ user1621769: Найпростіший підхід - це мережа з одним вузлом зсуву, який підключається до всіх невхідних вузлів у мережі.
Нейт Кол

65
@ user1621769: Основна функція зміщення полягає у наданні кожному вузлу відстежуваного постійного значення (крім звичайних входів, які отримує вузол). Ви можете домогтися цього за допомогою одного вузла зміщення з підключенням до N вузлів або з N вузлів зміщення, кожен з яких має єдине з'єднання; результат повинен бути однаковим.
Нейт Кол

4
@ user1621769: Можливо, ви не брали до уваги зважування? Кожне з'єднання має треновану вагу, і вузол зміщення має фіксовану величину.
Дімпл

4
@ user132458, якщо алгоритм тренінгу визначить, що вам не потрібно зміщення зміщення, ваги зміщення, ймовірно, наближаються до 0. Таким чином, виключається сигнал зміщення.
jorgenkg

8
@ Габриель: На прихований нейрон повинен бути один зміщення.

343

Тільки щоб додати мої два центи.

Більш простий спосіб зрозуміти, що таке ухил: він якось схожий на постійну b лінійної функції

y = сокира + b

Це дозволяє переміщувати лінію вгору і вниз, щоб краще відповідати передбачуваним даним. Без b лінія завжди проходить через початок (0, 0), і ви можете отримати більш низьку форму.


5
приємна анологія, але якщо ми встановимо ухил до 1, то чому це має значення для придатності тепер, коли кожен рядок тепер буде проходити через (0,1) замість (0,0)? Оскільки всі рядки тепер упереджені y = 1 замість y = 0, чому це корисно?
блакитно-небо

36
@ blue-sky Тому що, помноживши зміщення на вагу, ви можете змістити його на довільну суму.
Carcigenicate

3
Чи правильно називати b "коефіцієнтом"? Чи не є "коефіцієнтом" число, яке використовується для множення змінної?
Бен

8
b - не "коефіцієнт", швидше це перехоплення.
Еспанта

22
b - коефіцієнт $ x ^ 0 $. a - коефіцієнт $ x ^ 1 $

64

Ця нитка дуже допомогла мені розробити власний проект. Ось декілька подальших ілюстрацій, що показують результат простої нейромережевої нейромережі з подачею вперед та з без нахилів на двозмінну регресію. Ваги ініціалізуються випадковим чином і використовується стандартна активація ReLU. Як було зроблено відповіді до мене, без упередженості мережа ReLU не в змозі відхилитися від нуля при (0,0).

введіть тут опис зображення

введіть тут опис зображення


1
Чи можете ви, будь ласка, додати функцію, побудовану за допомогою міток осі?
Komal-SkyNET

46

Під час тренування ANN можна регулювати два різні види параметрів, ваги та значення функцій активації. Це непрактично, і було б простіше, якби було налаштовано лише один з параметрів. Для вирішення цієї проблеми придуманий нейрон зміщення. Нейрон зміщення лежить в одному шарі, з'єднаний з усіма нейронами в наступному шарі, але жоден у попередньому шарі і він завжди випромінює 1. Оскільки нейрон зсуву випромінює 1, ваги, пов'язані з нейроном зміщення, додаються безпосередньо до об'єднана сума інших ваг (рівняння 2.1), подібно до значення t у функціях активації. 1

Причина, яка непрактична, полягає в тому, що ви одночасно регулюєте вагу та значення, тому будь-яке зміна ваги може нейтралізувати зміну до значення, яке було корисним для попереднього екземпляра даних ... додавання нейрона зсуву без зміни значення дозволяє ви контролюєте поведінку шару.

Крім того, зміщення дозволяє використовувати одну нейронну сітку для представлення подібних випадків. Розглянемо булева функція AND, представлена ​​наступною нейронною мережею:

АНН
(джерело: aihorizon.com )

  • w0 відповідає b .
  • w1 відповідає x1 .
  • w2 відповідає x2 .

Один перцептрон може бути використаний для представлення багатьох булевих функцій.

Наприклад, якщо припустити булеві значення 1 (true) та -1 (false), то одним із способів використання перцептрона з двома входами для реалізації функції AND є встановлення ваг w0 = -3, а w1 = w2 = .5. Цей перцептрон може бути зроблений для представлення функції АБО замість зміни порогу на w0 = -,3. Насправді, І і АБО можна розглядати як особливі випадки m-з-n функцій: тобто функції, де принаймні m з n входів у перцептрон повинні бути правдивими. Функція АБО відповідає m = 1, а функція AND - m = n. Будь-яка функція m-of-n легко представляється за допомогою перцептрона, встановлюючи всі вхідні ваги на одне значення (наприклад, 0,5), а потім встановлюючи поріг w0 відповідно.

Перцептрони можуть представляти всі примітивні булеві функції AND, OR, NAND (1 AND) та NOR (1 OR). Машинне навчання - Том Мітчелл)

Поріг є зміщенням, а w0 - вага, пов'язаний з нейроном зміщення / поріг.


8
Подумайте про це як загальне правило: додайте упередженість! Нейронні мережі певною мірою є "непередбачуваними", тому якщо ви додасте нейрон зміщення, ви, швидше за все, знайдете рішення швидше, ніж якщо ви не використали зміщення. Звичайно, це не доведено математично, але це те, що я спостерігав у літературі та в цілому.
Кирило

25

Зміщення не є NNтерміном, це загальний термін алгебри, який слід розглядати.

Y = M*X + C (рівняння прямої лінії)

Тепер, якщо C(Bias) = 0тоді, рядок завжди буде проходити через початок, тобто (0,0), і залежить лише від одного параметра, тобто M, який є нахил, тому у нас є менше речей, з якими потрібно грати.

C, який є зміщенням приймає будь-яке число і має активність зсуву графіка, а отже, здатний представляти більш складні ситуації.

У логістичній регресії очікуване значення цілі перетворюється функцією зв'язку для обмеження її значення одиничним інтервалом. Таким чином, передбачення моделі можна розглядати як основні ймовірності результатів, як показано: Сигмоїдна функція у Вікіпедії

Це останній шар активації на карті NN, який включає і вимикає нейрон. Тут також відіграє роль ухил, і він зсуває криву гнучко, щоб допомогти нам скласти модель.


1
тож які проблеми в навчанні / навчанні нейронної мережі виникають, коли лінія завжди проходить через початок, коли упередження не використовується?
Даніял Джавайд

@DaniyalJavaid Це може бути і не проблема
Pradi KL

23

Шар у нейронній мережі без зміщення - це не що інше, як множення вхідного вектора на матрицю. (Вихідний вектор може бути переданий через сигмоподібну функцію для нормалізації та для використання в багатошаровому ANN після цього, але це не важливо.)

Це означає, що ви використовуєте лінійну функцію, і, таким чином, вхід усіх нулів завжди буде відображатися на результат всіх нулів. Це може бути розумним рішенням для деяких систем, але в цілому воно є занадто обмежуючим.

Використовуючи зміщення, ви ефективно додаєте інший вимір у свій вхідний простір, який завжди приймає значення один, тому ви уникаєте вхідного вектора всіх нулів. Ви не втрачаєте жодної загальності завдяки цьому, оскільки ваша матриця ваги не повинна бути сюжетною, тому вона все ще може відображати всі можливі раніше значення.

2d АНН:

Для відображення ANN двох вимірів на один вимір, як при відтворенні функції AND або OR (або XOR), ви можете подумати про нейронну мережу таким чином:

На площині 2d позначте всі положення вхідних векторів. Отже, для булевих значень потрібно позначити (-1, -1), (1,1), (-1,1), (1, -1). Тепер ваша АНН - це намалювати пряму лінію на 2d площині, відокремивши позитивний вихід від негативних вихідних значень.

Без упереджень ця пряма лінія повинна пройти через нуль, тоді як з ухилом ви можете її розмістити куди завгодно. Отже, ви побачите, що без упередженості ви стикаєтеся з проблемою функції AND, оскільки ви не можете поставити як (1, -1), так і (-1,1) в негативну сторону. (Їм заборонено бути на лінії.) Проблема рівна для функції АБО. Однак з упередженням легко провести лінію.

Зауважте, що функцію XOR у цій ситуації неможливо вирішити навіть з упередженням.


4
Якщо ви використовуєте функцію передачі сигмоїдів, ви вводите нелінійність. Заявити, що це лінійна функція, неправильно, а також якось небезпечно, оскільки нелінійність сигмоїди є ключовою для вирішення кількох завдань. Також сигмоїд (0) = 0,5, і немає x, для якого сигмоїд (x) = 0.
байєр

2
Так, але це 0,5 для будь-якого введення 0 без ухилу, незалежно від того, як виглядає лінійна функція раніше. І в цьому справа. Ви зазвичай не тренуєте свою сигмоподібну функцію, ви просто живете з нею. Проблема лінійності трапляється задовго до сигмоїдної функції.
Дебільські

Я розумію: шар не в змозі дізнатися інший вихід за 0, ніж той, з якого він почався. Це правильно і важливо. Однак "аргумент лінійної функції", на мою думку, просто не застосовується. Навіть з ухилом функція все ще лінійна. Тут властивість лінійності вводить в оману. (Так, я, можливо, змушую застуджуватися.)
Байєр

Я б сказав, що з ухилом це Афінний . ( en.wikipedia.org/wiki/Affine_transformation#Representation )
Дебільський

Так, ви маєте рацію. Дякую, що вказали на цю різницю для мене. (Чому тоді ми називаємо це лінійною регресією, btw, хоча це афінно?)
байєр

20

Використовуючи ANN, ви рідко знаєте про внутрішні системи систем, які ви хочете вивчити. Деякі речі неможливо дізнатися без упередженості. Наприклад, подивіться на такі дані: (0, 1), (1, 1), (2, 1), в основному, функція, яка відображає будь-які х на 1.

Якщо у вас є одношарова мережа (або лінійне відображення), ви не можете знайти рішення. Однак якщо у вас є упередженість, це банально!

В ідеальній обстановці зміщення також може відобразити всі точки до середнього значення цільових точок і дозволити прихованим нейронам моделювати відмінності від цієї точки.


18

Модифікація нейронів ВАГИ лише служить для маніпулювання формою / кривизною функції перенесення, а не її рівноважною / нульовою точкою перетину.

Введення упередженості нейронів дозволяє змістити криву функції передачі по горизонталі (ліворуч / праворуч) уздовж вхідної осі, залишаючи форму / кривизну незмінною. Це дозволить мережі виробляти довільні виходи, відмінні від значень за замовчуванням, а отже, ви можете налаштувати / змінити відображення вводу-виводу відповідно до ваших потреб.

Дивіться тут для графічного пояснення: http://www.heatonresearch.com/wiki/Bias


16

Просто додати до всього цього чогось, чого дуже не вистачає і чого решта, швидше за все, не знала.

Якщо ви працюєте із зображеннями, ви, можливо, волієте взагалі не використовувати упередження. Теоретично таким чином ваша мережа буде більш незалежною від величини даних, як від темного, чи темного зображення, чи яскравого та яскравого. І мережа навчиться виконувати свою роботу шляхом вивчення відносності всередині ваших даних. Багато сучасних нейронних мереж використовують це.

Для інших даних, які мають упередження, може бути критично важливим. Це залежить від того, з яким типом даних ви маєте справу. Якщо ваша інформація інваріантна за величиною --- якщо введення [1,0,0.1] призведе до того ж результату, що і при введенні [100,0,10], вам може бути краще без зміщення.


вам, мабуть, краще з нормалізацією. Що є прикладом сучасної мережі, яка використовує "відсутність упередженості" для створення інваріантності масштабів?
AwokeKnowing

@AwokeKnowing, я вважаю, звичайний ResNet використовує це, оскільки це частина його "ініціалізації", але я не зовсім впевнений, що вони зробили це з цією метою або, можливо, з огляду на розмір / ефективність моделі, і я " не впевнений, що ця концепція публікується де-небудь. Але я думаю, що це цілком зрозуміло на теоретичному рівні. Якщо у вас немає зміщення, яке не масштабує, коли масштабуєте значення, усі результати просто масштабуються відповідно. Усвідомлюючи цю концепцію чи ні, велика частина сучасних архітектур не має упередженості принаймні у значній частині їх структур.
Íhor Mé

16

У кількох експериментах моєї дипломної роботи (наприклад, стор. 59) я виявив, що зміщення може бути важливим для першого шару (ив), але особливо на повністю з'єднаних шарах в кінці, здається, це не відіграє великої ролі.

Це може сильно залежати від мережевої архітектури / набору даних.


Це звучить абсолютно аналогічно процесу моделювання систем "вручну" з лінійною регресією. Найпростішою моделлю буде Y_bar = середнє значення (Y). Потім ви додаєте складності, включаючи різні X терміни, зупиняючись, коли немає значного приросту інформації.
IRTFM

15

Зміщення визначає, на який кут потрібно обертати вагу.

У двовимірній діаграмі вага та ухил допомагають нам знайти межу прийняття рішень. Скажімо, нам потрібно побудувати функцію AND, пара вводу (p)-вихід (t) повинна бути

{p = [0,0], t = 0}, {p = [1,0], t = 0}, {p = [0,1], t = 0}, {p = [1,1] , t = 1}

введіть тут опис зображення

Тепер нам потрібно знайти межу рішення, межа ідеї повинна бути:

введіть тут опис зображення

Подивитися? W перпендикулярний до нашої межі. Таким чином, ми кажемо, що W вирішив напрямок межі.

Однак важко знайти правильний W спочатку. Переважно, ми вибираємо вихідне значення W випадковим чином. Таким чином, першою межею може бути така: введіть тут опис зображення

Тепер межа є парелером до осі y.

Ми хочемо повернути межу, як?

Змінюючи W.

Отже, ми використовуємо функцію правила навчання: W '= W + P: введіть тут опис зображення

W '= W + P еквівалентно W' = W + bP, а b = 1.

Тому, змінюючи значення b (зміщення), ви можете визначити кут між W 'і W. Це "правило навчання ANN".

Ви також можете прочитати дизайн нейронних мереж Мартіна Т. Хагана / Говарда Б. Демута / Марка Х. Білла, глава 4 "Правило навчання перцептрону"



10

Зокрема, Нейта відповідь , zfy в відповідь , і Pradi в відповідь великі.

Простіше кажучи, ухили дозволяють дізнаватися / зберігати все більше варіацій ваг ... ( бічна примітка : іноді задається деякий поріг). У будь-якому випадку, більше варіацій означає, що ухили додають багатшого представлення вхідного простору до вивченої / збереженої ваги моделі. (Де кращі ваги можуть посилити здогадку нейронної сітки)

Наприклад, у моделях навчання гіпотеза / здогадка бажано обмежувати y = 0 або y = 1, задавши деякий вхід, можливо, якесь завдання класифікації ... тобто деякий y = 0 для деякого x = (1,1) і деякого y = 1 для деякого x = (0,1). (Умовою гіпотези / результату є поріг, про який я говорив вище. Зауважте, що мої приклади встановлюють, що входи X мають бути кожним x = подвійним або двома значущими векторами, а не однозначними x входами Nate деякої колекції X).

Якщо ми ігноруємо упередження, багато вхідних даних можуть бути представлені безліччю однакових ваг (тобто вивчені ваги в основному зустрічаються наближеними до походження (0,0). Тоді модель буде обмежена біднішими великими вагами, замість багато-багато інших хороших ваг можна було б краще навчитися з ухилом (де погано засвоєні ваги призводять до бідніших здогадок або зменшення сили здогадів нейронної сітки)

Таким чином, оптимально, щоб модель вчилася як наближеною до походження, так і в якомога більше місцях, що знаходяться в межах межі порога / рішення. Завдяки упередженості ми можемо забезпечити ступінь свободи, близької до походження, але не обмежуючись безпосередньо регіоном походження.


9

Розширення на пояснення @zfy ... Рівняння для одного вводу, одного нейрона, одного виходу має виглядати:

y = a * x + b * 1    and out = f(y)

де x - значення від вузла введення, а 1 - значення вузла зміщення; y може бути безпосередньо вашим результатом або бути переданим у функцію, часто сигмоподібну функцію. Також зауважте, що зміщення може бути будь-яким постійним, але щоб зробити все простішим, ми завжди обираємо 1 (і, мабуть, це так часто, що @zfy це робив, не показуючи та пояснюючи це).

Ваша мережа намагається вивчити коефіцієнти a і b для адаптації до ваших даних. Тож ви можете зрозуміти, чому додавання елемента b * 1дозволяє йому краще підходити до більшої кількості даних: тепер ви можете змінити і нахил, і перехоплення.

Якщо у вас є більше одного введення, ваше рівняння буде виглядати так:

y = a0 * x0 + a1 * x1 + ... + aN * 1

Зауважте, що рівняння все ще описує один нейрон, одну вихідну мережу; якщо у вас більше нейронів, ви просто додаєте один вимір до матриці коефіцієнтів, щоб мультиплексувати входи до всіх вузлів і підсумовувати кожен внесок кожного вузла.

Що ви можете писати у векторному форматі як

A = [a0, a1, .., aN] , X = [x0, x1, ..., 1]
Y = A . XT

тобто вводячи коефіцієнти в один масив і (входи + зміщення) в інший, у вас є бажане рішення як крапковий добуток двох векторів (вам потрібно перенести X, щоб форма була правильною, я написав XT «X transposed»)

Отже, врешті-решт, ви також можете побачити свою зміщення, оскільки це лише ще один вхід, який представляє частину результату, яка насправді не залежить від вашого вкладу.


Здається, я пам’ятаю з класу Ендрю Нґ, що упередженість була залишена в частині тренувального процесу. Ви можете оновити свою відповідь, щоб пояснити, що, враховуючи свій висновок, що це "лише інший внесок"?
AwokeKnowing

@AwokeKnowing Я не пам’ятаю цього з класу Ендрю Нґ, але це було кілька років тому. Також ухил може бути увімкнено або вимкнено залежно від того, що ви намагаєтеся навчитися. Я читав, що в обробці зображень вони не використовують його, щоб дозволити масштабування. Мені, якщо ти ним користуєшся, то використовуєш і в тренуванні. Ефект полягає в стабілізації коефіцієнтів, коли всі або частина входів є нульовими або майже нульовими. Чому б ви не використовували упередження під час тренувань, а потім використовували його під час використання NN для прогнозування результатів для нових входів? Чим це може бути корисно?
RobMcZag

Ні, це було скоріше, використовуйте його в прямому проході, але не використовуйте його під час обчислення градієнта заднього ходу або щось подібне.
AwokeKnowing

@AwokeKnowing Я гадаю, що це спосіб зекономити деяку пам’ять та час. Ви можете вирішити, що вам неважливо вивчити коефіцієнти для одиниць зміщення. Це може бути добре, якщо у вас є принаймні один прихований шар, оскільки зміщення забезпечить деякий вхід до цього шару, а вихід може бути отриманий за коефіцієнтами від першого до другого шару. Я не впевнений, чи зміниться швидкість конвергенції. У моєму прикладі з одним шаром ви змушені вивчати також коефіцієнт зміщення, оскільки він застосовується до виводу.
RobMcZag

У багатьох простих проблемах цільові дані принижуються та зменшуються, тому не потрібні упередження. Потенціал надмірного впливу зовнішніх змінних змінних із великими діапазонами зменшується.
IRTFM

9

Крім вказаних відповідей ... Я хотів би додати ще деякі моменти.

Упередженість виступає нашим якорем. Це спосіб, щоб ми мали якусь базову лінію, де ми не підемо нижче цього. З точки зору графіка, подумайте, як y = mx + b це як у-перехоплення цієї функції.

вихід = введення разів вагоме значення та додане значення зміщення, а потім застосувати функцію активації.


8

Думати по-простому, якщо у вас y = w1 * x, де y - ваш вихід, а w1 - вага, уявіть собі умову, коли x = 0, то y = w1 * x дорівнює 0 , якщо ви хочете оновити вагу, у вас є обчислити скільки змін у delw = target-y, де цільовим є ваш цільовий вихід, у цьому випадку 'delw' не зміниться, оскільки y обчислюється як 0. Так, припустимо, якщо ви можете додати якусь додаткову величину, це допоможе y = w1 * x + w0 * 1 , де зміщення = 1 і вагу можна регулювати, щоб отримати правильне зміщення. Розгляньте приклад нижче.

З точки зору лінії нахил-перехват - це специфічна форма лінійних рівнянь.

y = mx + b

перевірити зображення

зображення

тут b дорівнює (0,2)

якщо ви хочете збільшити його до (0,3), як ви це зробите, змінивши значення b, яке буде вашим ухилом


7

Для всіх досліджених нами книг про ML, W завжди визначається як індекс зв’язку між двома нейронами, що означає, що чим вище зв'язок між двома нейронами, тим сильніше сигнали будуть передаватися від нейрону стрільби до цільового нейрона або Y = w * X внаслідок збереження біологічного характеру нейронів нам потрібно зберегти 1> = W> = -1, але в реальній регресії W закінчиться | W | > = 1, що суперечить тому, як працюють нейрони, в результаті пропоную W = cos (theta), тоді як 1> = | cos (тета) | , а Y = a * X = W * X + b, тоді як a = b + W = b + cos (theta), b - ціле число


7

У нейронних мережах:

  1. Кожен Нейрон має упередженість
  2. Ви можете переглядати зміщення як поріг (як правило, протилежні значення порогу)
  3. Зважена сума від вхідних шарів + зміщення визначає активацію нейрона
  4. Зміщення збільшує гнучкість моделі.

За відсутності зміщення нейрон може не активуватися, враховуючи лише зважену суму від вхідного шару. Якщо нейрон не активований, інформація від цього нейрона не передається через решту нейронної мережі.

Значення упередженості може бути зрозумілим.

введіть тут опис зображення

Ефективно, зміщення = - поріг. Ви можете подумати про зміщення як про те, як легко змусити нейрон виводити 1 - з дійсно великим ухилом, нейрон виводить 1, але якщо зміщення дуже негативне, то це важко.

підсумовано: зміщення допомагає контролювати значення, при якому спрацює функція активації.

Слідкуйте за цим відео для отримання більш детальної інформації

Ще кілька корисних посилань:

гексфоргекс

назустріч науці


1
Приємна інтерпретація. Але мені незрозуміло, як упередженість здатна до навчання (чи навчання)? У простому випадку, коли втрата = ReLU (омега * x + a), вагу омеги можна тренувати за допомогою ланцюгового правила, але як можна aтренувати упередження, коли градієнт до aзавжди постійний?
Лібін Вень

4

Термін зміщення використовується для регулювання кінцевої матриці виводу, як це робить y-перехоплення. Наприклад, у класичному рівнянні y = mx + c, якщо c = 0, то лінія завжди буде проходити через 0. Додавання терміна зміщення забезпечує більшу гнучкість та краще узагальнення нашої моделі нейронної мережі.


0

Загалом, в машині навчання ми маємо цю базову формулу Ухил-Дисперсія компроміс Тому що в NN ми маємо проблему перенавчання (модельна задача узагальнення , де невеликі зміни наводять дані великі зміни в моделі результаті) і з - за того , що ми маємо велику дисперсію, вводячи невеликі упередження могли б дуже допомогти. Враховуючи формулу вище компромісу зміщення , де ухил має квадрат, отже, введення невеликих ухилів може призвести до значного зменшення дисперсії. Отже, введіть упередженість, коли у вас є велика дисперсія та небезпека.


3
Bias блоки і діагонально-дисперсії Компроміс окремі поняття. Питання стосується колишнього.
SigmaX

0

Зміщення допомагає отримати краще рівняння

Уявіть, що вхід і вихід є функцією, y = ax + bі вам потрібно поставити правильну лінію між входом (x) і виходом (y), щоб мінімізувати глобальну помилку між кожною точкою та лінією, якщо ви будете тримати рівняння таким y = ax, у вас буде один параметр лише для адаптації, навіть якщо ви знайдете найкраще aмінімізувати глобальну помилку, це буде наче далеко від потрібного значення

Можна сказати, що зміщення робить рівняння більш гнучким для адаптації до найкращих значень

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.