Статистика та великі дані backpropagation

6

Чи можливо тренувати нейронну мережу без зворотного розповсюдження?

Багато книг та навчальних посібників з нейронної мережі витрачають багато часу на алгоритм зворотного розповсюдження, який по суті є інструментом для обчислення градієнта. Припустимо, ми будуємо модель з параметрами / вагами ~ 10K. Чи можливо запустити оптимізацію за допомогою деяких алгоритмів оптимізації без градієнта? Я думаю, що обчислення числового градієнта …

94 machine-learning neural-networks optimization backpropagation

1

Яким повинен бути розмір партії для стохастичного градієнтного спуску?

Я розумію, що стохастичний градієнтний спуск може бути використаний для оптимізації нейронної мережі за допомогою зворотного розповсюдження шляхом оновлення кожної ітерації іншим зразком навчального набору даних. Яким повинен бути розмір партії?

49 machine-learning neural-networks gradient-descent backpropagation

1

Чим softmax_cross_entropy_with_logits відрізняється від softmax_cross_entropy_with_logits_v2?

Зокрема, я думаю, мені цікаво таке твердження: Майбутні основні версії TensorFlow дозволять градієнтам потрапляти в мітки, що вводяться на задній панелі, за замовчуванням. Що відображається при використанні tf.nn.softmax_cross_entropy_with_logits. У цьому ж повідомленні він закликає мене подивитися tf.nn.softmax_cross_entropy_with_logits_v2. Я переглянув документацію, але в ній вказано лише, що для tf.nn.softmax_cross_entropy_with_logits_v2: Зворотне розповсюдження …

41 machine-learning supervised-learning tensorflow backpropagation

6

Поширення за допомогою Softmax / Cross Entropy

Я намагаюся зрозуміти, як працює розмноження для вихідного шару softmax / cross-entropy. Помилка поперечної ентропії є E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j з ttt і ooo в якості цілі та виходу при нейроні jjj відповідно. Сума знаходиться над кожним нейроном у вихідному шарі. ojojo_j сам по собі результат функції softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} …

40 backpropagation derivative softmax cross-entropy

5

Зворотне розповсюдження проти генетичного алгоритму для тренувань нейронної мережі

Я прочитав кілька робіт, де обговорювалися плюси і мінуси кожного методу, дехто стверджував, що GA не покращує пошук оптимального рішення, а інші показують, що він є більш ефективним. Здається, GA, як правило, є кращим у літературі (хоча в основному люди модифікують його якимось чином, щоб досягти необхідних результатів), то чому, …

34 neural-networks genetic-algorithms backpropagation

4

Чому танг майже завжди кращий за сигмоподібну як функцію активації?

У курсі " Нейронні мережі та глибоке навчання" Ендрю Нґ на "Coursera" він говорить, що використання майже завжди краще використовувати .t a n hтангодtanhs i gмо я дсiгмоiгsigmoid Причина, яку він наводить, полягає в тому, що результати, що використовують центр навколо 0, а не 0,5, і це "трохи спрощує навчання …

33 machine-learning neural-networks backpropagation sigmoid-curve

7

Небезпека встановлення всіх початкових ваг до нуля в Backpropagation

Чому небезпечно ініціалізувати ваги нулями? Чи є простий приклад, який це демонструє?

30 neural-networks backpropagation

1

Чому функції активації, не орієнтовані на нуль, є проблемою у зворотному розповсюдженні?

Я прочитав тут таке: Сигмоїдні виходи не орієнтовані на нуль . Це небажано, оскільки нейрони в більш пізніх шарах обробки в нейронній мережі (детальніше про це незабаром) отримували б дані, не орієнтовані на нуль. Це має значення для динаміки під час спуску градієнта, оскільки якщо дані, що надходять у нейрон, …

26 neural-networks deep-learning backpropagation

1

Поширення градієнта через пропускні з'єднання ResNet

Мені цікаво, як градієнти розповсюджуються назад через нейронну мережу за допомогою модулів ResNet / пропускають з'єднання. Я бачив кілька запитань щодо ResNet (наприклад, нейромережа зі зв’язками пропускового шару ), але це запитує конкретно про зворотне поширення градієнтів під час тренування. Основна архітектура тут: Я читаю цю статтю « Вивчення залишкових …

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

3

Навіщо використовувати спуск градієнта з нейронними мережами?

Під час тренування нейронної мережі з використанням алгоритму зворотного розповсюдження використовується метод градієнтного спуску для визначення оновлень ваги. Моє запитання: Замість того, щоб використовувати метод градієнтного спуску, щоб повільно знаходити мінімальну точку щодо певної ваги, чому ми не просто встановимо похідну , і знайти значення вагиw,яке мінімізує помилку?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Крім того, …

22 neural-networks gradient-descent backpropagation

2

Чому в нейронних мережах застосовують градієнтні методи, а не інші метагевристики?

При навчанні глибоких і неглибоких нейронних мереж, чому градієнтні методи (наприклад, спуск градієнта, Нестеров, Ньютон-Рафсон), зазвичай використовуються, на відміну від інших метагевристів? Під метагевристикою я маю на увазі такі методи, як імітація відпалу, оптимізація колоній мурашок тощо, які були розроблені, щоб уникнути застрявання в локальних мінімумах.

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Чому зворотне розповсюдження не працює, коли ви ініціалізуєте ваги однакового значення?

Чому зворотне розповсюдження не працює, коли ви ініціалізуєте всю вагу одного і того ж значення (скажімо, 0,5), але працює добре, коли задаються випадкові числа? Чи не повинен алгоритм обчислювати помилку і працювати звідти, незважаючи на те, що ваги спочатку однакові?

20 machine-learning neural-networks backpropagation

2

Алгоритм зворотного розповсюдження

У мене з'явилася невелика плутанина щодо алгоритму зворотного розповсюдження , який використовується в багатошаровому персептроні (MLP). Помилка коригується функцією витрат. У зворотному розмноженні ми намагаємось регулювати вагу прихованих шарів. Помилка виводу, яку я можу зрозуміти, тобто e = d - y[Без підписок]. Питання: Як можна отримати помилку прихованого шару? Як …

19 machine-learning neural-networks backpropagation

1

Сума або середнє значення градієнтів у (міні) градієнті партії пристойне?

Коли я реалізував пристойний міні-градієнт градієнта, я просто усереднював градієнти всіх прикладів у навчальній партії. Однак я помітив, що зараз оптимальна швидкість навчання набагато вища, ніж для онлайн-градієнтів пристойних. Моя інтуїція полягає в тому, що це тому, що усереднений градієнт менш шумний, і тому він може дотримуватися швидше. Тож, можливо, …

15 neural-networks gradient-descent backpropagation

3

Чому назад поширюється протягом часу в RNN?

У періодичній нейронній мережі, як правило, вперед розповсюджуються через кілька часових кроків, "розкручують" мережу, а потім поширюються назад по послідовності входів. Чому б ви не просто оновлювали ваги після кожного окремого кроку в послідовності? (еквівалент використання довжини усікання 1, тому немає чого розкручувати) Це повністю виключає проблему градієнта, що зникає, …

14 time-series neural-networks backpropagation rnn

Запитання з тегом «backpropagation»