Запитання з тегом «backpropagation»

Зворотне розповсюдження, абревіатура для "зворотного розповсюдження помилок", є поширеним методом навчання штучних нейронних мереж, який використовується в поєднанні з методом оптимізації, таким як градієнтний спуск.

6
Чи можливо тренувати нейронну мережу без зворотного розповсюдження?
Багато книг та навчальних посібників з нейронної мережі витрачають багато часу на алгоритм зворотного розповсюдження, який по суті є інструментом для обчислення градієнта. Припустимо, ми будуємо модель з параметрами / вагами ~ 10K. Чи можливо запустити оптимізацію за допомогою деяких алгоритмів оптимізації без градієнта? Я думаю, що обчислення числового градієнта …

1
Яким повинен бути розмір партії для стохастичного градієнтного спуску?
Я розумію, що стохастичний градієнтний спуск може бути використаний для оптимізації нейронної мережі за допомогою зворотного розповсюдження шляхом оновлення кожної ітерації іншим зразком навчального набору даних. Яким повинен бути розмір партії?

1
Чим softmax_cross_entropy_with_logits відрізняється від softmax_cross_entropy_with_logits_v2?
Зокрема, я думаю, мені цікаво таке твердження: Майбутні основні версії TensorFlow дозволять градієнтам потрапляти в мітки, що вводяться на задній панелі, за замовчуванням. Що відображається при використанні tf.nn.softmax_cross_entropy_with_logits. У цьому ж повідомленні він закликає мене подивитися tf.nn.softmax_cross_entropy_with_logits_v2. Я переглянув документацію, але в ній вказано лише, що для tf.nn.softmax_cross_entropy_with_logits_v2: Зворотне розповсюдження …

6
Поширення за допомогою Softmax / Cross Entropy
Я намагаюся зрозуміти, як працює розмноження для вихідного шару softmax / cross-entropy. Помилка поперечної ентропії є E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j з ttt і ooo в якості цілі та виходу при нейроні jjj відповідно. Сума знаходиться над кожним нейроном у вихідному шарі. ojojo_j сам по собі результат функції softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} …

5
Зворотне розповсюдження проти генетичного алгоритму для тренувань нейронної мережі
Я прочитав кілька робіт, де обговорювалися плюси і мінуси кожного методу, дехто стверджував, що GA не покращує пошук оптимального рішення, а інші показують, що він є більш ефективним. Здається, GA, як правило, є кращим у літературі (хоча в основному люди модифікують його якимось чином, щоб досягти необхідних результатів), то чому, …

4
Чому танг майже завжди кращий за сигмоподібну як функцію активації?
У курсі " Нейронні мережі та глибоке навчання" Ендрю Нґ на "Coursera" він говорить, що використання майже завжди краще використовувати .t a n hтангодtanhs i gмо я дсiгмоiгsigmoid Причина, яку він наводить, полягає в тому, що результати, що використовують центр навколо 0, а не 0,5, і це "трохи спрощує навчання …


1
Чому функції активації, не орієнтовані на нуль, є проблемою у зворотному розповсюдженні?
Я прочитав тут таке: Сигмоїдні виходи не орієнтовані на нуль . Це небажано, оскільки нейрони в більш пізніх шарах обробки в нейронній мережі (детальніше про це незабаром) отримували б дані, не орієнтовані на нуль. Це має значення для динаміки під час спуску градієнта, оскільки якщо дані, що надходять у нейрон, …

1
Поширення градієнта через пропускні з'єднання ResNet
Мені цікаво, як градієнти розповсюджуються назад через нейронну мережу за допомогою модулів ResNet / пропускають з'єднання. Я бачив кілька запитань щодо ResNet (наприклад, нейромережа зі зв’язками пропускового шару ), але це запитує конкретно про зворотне поширення градієнтів під час тренування. Основна архітектура тут: Я читаю цю статтю « Вивчення залишкових …

3
Навіщо використовувати спуск градієнта з нейронними мережами?
Під час тренування нейронної мережі з використанням алгоритму зворотного розповсюдження використовується метод градієнтного спуску для визначення оновлень ваги. Моє запитання: Замість того, щоб використовувати метод градієнтного спуску, щоб повільно знаходити мінімальну точку щодо певної ваги, чому ми не просто встановимо похідну , і знайти значення вагиw,яке мінімізує помилку?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Крім того, …

2
Чому в нейронних мережах застосовують градієнтні методи, а не інші метагевристики?
При навчанні глибоких і неглибоких нейронних мереж, чому градієнтні методи (наприклад, спуск градієнта, Нестеров, Ньютон-Рафсон), зазвичай використовуються, на відміну від інших метагевристів? Під метагевристикою я маю на увазі такі методи, як імітація відпалу, оптимізація колоній мурашок тощо, які були розроблені, щоб уникнути застрявання в локальних мінімумах.

2
Чому зворотне розповсюдження не працює, коли ви ініціалізуєте ваги однакового значення?
Чому зворотне розповсюдження не працює, коли ви ініціалізуєте всю вагу одного і того ж значення (скажімо, 0,5), але працює добре, коли задаються випадкові числа? Чи не повинен алгоритм обчислювати помилку і працювати звідти, незважаючи на те, що ваги спочатку однакові?

2
Алгоритм зворотного розповсюдження
У мене з'явилася невелика плутанина щодо алгоритму зворотного розповсюдження , який використовується в багатошаровому персептроні (MLP). Помилка коригується функцією витрат. У зворотному розмноженні ми намагаємось регулювати вагу прихованих шарів. Помилка виводу, яку я можу зрозуміти, тобто e = d - y[Без підписок]. Питання: Як можна отримати помилку прихованого шару? Як …

1
Сума або середнє значення градієнтів у (міні) градієнті партії пристойне?
Коли я реалізував пристойний міні-градієнт градієнта, я просто усереднював градієнти всіх прикладів у навчальній партії. Однак я помітив, що зараз оптимальна швидкість навчання набагато вища, ніж для онлайн-градієнтів пристойних. Моя інтуїція полягає в тому, що це тому, що усереднений градієнт менш шумний, і тому він може дотримуватися швидше. Тож, можливо, …

3
Чому назад поширюється протягом часу в RNN?
У періодичній нейронній мережі, як правило, вперед розповсюджуються через кілька часових кроків, "розкручують" мережу, а потім поширюються назад по послідовності входів. Чому б ви не просто оновлювали ваги після кожного окремого кроку в послідовності? (еквівалент використання довжини усікання 1, тому немає чого розкручувати) Це повністю виключає проблему градієнта, що зникає, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.