Запитання з тегом «backpropagation»

Зворотне розповсюдження, абревіатура для "зворотного розповсюдження помилок", є поширеним методом навчання штучних нейронних мереж, який використовується в поєднанні з методом оптимізації, таким як градієнтний спуск.

2
Яка перевага усіченого нормального розподілу в ініціалізації ваг в нейронній мережі?
Ініціалізуючи ваги з'єднання у нейромережі, що подається, важливо ініціалізувати їх випадковим чином, щоб уникнути будь-яких симетрій, які алгоритм навчання не зміг би розірвати. Рекомендація, яку я бачив у різних місцях (наприклад, у підручнику MNIST TensorFlow ), - це використовувати усічений нормальний розподіл, використовуючи стандартне відхилення , де - кількість входів …

2
Чому RNN з одиницями LSTM також можуть страждати від "вибуху градієнтів"?
У мене є основні знання про те, як працюють RNN (і, зокрема, з одиницями LSTM). У мене є живописне уявлення про архітектуру блоку LSTM, тобто клітинки та декількох воріт, які регулюють потік значень. Однак, мабуть, я не до кінця зрозумів, як LSTM вирішує проблему "зникаючих та вибухаючих градієнтів", яка виникає …

1
Матрична форма зворотного розмноження з партійною нормалізацією
Нормалізація партії пояснюється значним покращенням продуктивності глибоких нейронних сіток. Багато матеріалів в Інтернеті показує, як реалізувати його на основі активації за допомогою активації. Я вже реалізував backprop, використовуючи матричну алгебру, і враховуючи, що я працюю на мовах високого рівня (покладаючись на Rcpp(а згодом і на GPU) для щільного множення матриці), …

2
Захоплення початкових шаблонів при використанні усіченого зворотного розповсюдження через час (RNN / LSTM)
Скажіть, що я використовую RNN / LSTM для аналізу настроїв, що є підходом до багатьох (див. Цей блог ). Мережа тренується за допомогою усіченого зворотного розповсюдження через час (BPTT), де мережа розкручується лише 30 останніх кроків, як зазвичай. У моєму випадку кожен мій розділ тексту, який я хочу класифікувати, набагато …

2
Як спуск міні-партії градієнта оновлює ваги для кожного прикладу в партії?
Якщо ми обробляємо, наприклад, 10 прикладів у партії, я розумію, що ми можемо підсумовувати втрати за кожним прикладом, але як працює зворотне розмноження щодо оновлення ваг для кожного прикладу? Наприклад: Приклад 1 -> втрата = 2 Приклад 2 -> втрата = -2 Це призводить до середньої втрати 0 (E = …

2
Як тренувати SVM за допомогою зворотного розповсюдження?
Мені було цікаво, чи можна тренувати SVM (скажімо, лінійний, щоб полегшити справи) за допомогою зворотного розповсюдження? Наразі я перебуваю на дорозі, тому що можу думати лише про те, як записати вихід класифікатора як f( x ; θ , b ) = sgn ( θ ⋅ x - ( b + …

1
Навчання нейронної мережі згортки
Зараз я працюю над програмним забезпеченням для розпізнавання облич, яке використовує нейронні мережі згортки для розпізнавання облич. Спираючись на свої читання, я зрозумів, що звивиста нейронна мережа має загальну вагу, щоб заощадити час під час тренувань. Але як адаптувати зворотне розповсюдження, щоб його можна було використовувати в нейромережі згортки. Для …

2
Що таке пошук і як ви шукаєте нейронну мережу?
Я розумію, що попередня підготовка використовується для уникнення деяких проблем із звичайною підготовкою. Якщо я використовую backpropagation з, скажімо, автокодером, я знаю, що я зіткнуся з проблемами у часі, оскільки зворотне розповсюдження відбувається повільно, а також, що я можу зациклюватися на локальній оптимі і не вивчити певні функції. Я не …

1
Градієнти для skipgram word2vec
Я переживаю проблеми письмових завдань класу глибокого навчання в Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln Я намагаюся зрозуміти відповідь для 3а, де вони шукають похідне від вектора для центрального слова. Припустимо, вам надано прогнозований вектор слова vcvcv_{c}що відповідає центральному слову c для skipgram, а передбачення слів виконується за допомогою функції softmax, знайденої в …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.