Запитання з тегом «neural-networks»

Штучні нейронні мережі (АНН) - це широкий клас обчислювальних моделей, що базуються на біологічних нейронних мережах. Вони охоплюють подачі NN (включаючи "глибокі" NN), звивисті NN, повторювані NN тощо.

3
Шар Softmax в нейромережі
Я намагаюся додати шар softmax до нейронної мережі, що навчається із зворотним розповсюдженням, тому я намагаюся обчислити його градієнт. SoftMax вихід годj= еzj∑ еzihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} деjjj- номер вихідного нейрона. Якщо я виведу це, то отримаю ∂годj∂zj= годj( 1 - годj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Подібно до логістичної регресії. Однак це неправильно, оскільки моя …

2
Що таке максимум в нейронній мережі?
Хтось може пояснити, що роблять одиниці максимуму в нейронній мережі? Як вони виконують і чим вони відрізняються від звичайних одиниць? Я намагався прочитати документ "Максимальна мережа" 2013 року Goodfellow et al. (від групи професора Йошуа Бенджо), але я не дуже розумію.

1
Нейронні мережі: імпульс зміни ваги та зменшення ваги
Момент використовується для зменшення коливань змін ваги протягом послідовних ітерацій:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), де - функція помилки, - вектор ваг, - швидкість навчання.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Зниження ваги карає зміни ваги:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Питання полягає в тому, чи є …

4
Чому сигмоїдна функція замість чого-небудь іншого?
Чому де-факто стандартна сигмоїдна функція настільки популярна в (неглибоких) нейронних мережах та логістичній регресії?11+e−x11+e−x\frac{1}{1+e^{-x}} Чому б нам не скористатися багатьма іншими похідними функціями, з більш швидким часом обчислень або повільнішим розпадом (тому зникаючий градієнт трапляється менше). У Вікіпедії небагато прикладів щодо сигмоподібних функцій . Один з моїх улюблених із повільним …

3
Які відмінності між прихованими моделями Маркова та нейронними мережами?
Мені просто намокають ноги в статистиці, тому мені шкода, якщо це питання не має сенсу. Я використовував моделі Маркова для прогнозування прихованих станів (несправедливих казино, рулонів з кістки тощо) та нейронних мереж для вивчення кліків користувачів на пошуковій системі. У обох були приховані стани, які ми намагалися з'ясувати, використовуючи спостереження. …

4
Як функція прямолінійної активації вирішує проблему градієнта, що зникає, в нейронних мережах?
Я виявив, що випрямлена лінійна одиниця (ReLU) отримала високу оцінку в декількох місцях як рішення проблеми, що втрачає градієнт, для нейронних мереж. Тобто, людина використовує max (0, x) як функцію активації. Коли активація позитивна, очевидно, що це краще, ніж, скажімо, сигмоїдна активаційна функція, оскільки її деривація завжди дорівнює 1 замість …

7
Нормалізація даних і стандартизація в нейронних мережах
Я намагаюся передбачити результат складної системи за допомогою нейронних мереж (ANN). Значення результату (залежно) коливаються від 0 до 10000. Різні вхідні змінні мають різні діапазони. Усі змінні мають приблизно нормальний розподіл. Я розглядаю різні варіанти масштабування даних перед тренуванням. Один із варіантів - масштабувати вхідні (незалежні) та вихідні (залежні) змінні …

2
ImageNet: що таке коефіцієнт помилок топ-1 та топ-5?
У класифікаційних роботах ImageNet коефіцієнт помилок топ-1 та топ-5 є важливими одиницями для вимірювання успішності деяких рішень, але які показники помилок? У класифікації ImageNet з глибокими згортковими нейронними мережами Крижевського та ін. кожне рішення, засноване на одній єдиній CNN (стор. 7), не має кращих 5 помилок, тоді як у тих, …

5
Як візуалізувати / зрозуміти, що робить нейромережа?
Нейронні мережі часто трактуються як «чорні скриньки» через їх складну структуру. Це не ідеально, оскільки часто вигідно зрозуміти, як модель працює всередині країни. Які методи візуалізації роботи тренованої нейронної мережі? Як варіант, як ми можемо отримати легкозасвоювані описи мережі (наприклад, цей прихований вузол в першу чергу працює з цими входами)? …

7
Чому регуляризація не вирішує голод щодо даних Deep Neural Nets?
Проблема, яку я часто зустрічався в контексті Нейронних мереж в цілому, і Глибоких нейронних мереж, зокрема, полягає в тому, що вони "голодні", тобто вони не працюють добре, якщо у нас не є великий набір даних з якою тренувати мережу. Я розумію, що це пов’язано з тим, що NNets, особливо Deep …

4
Що робити, коли моя нейронна мережа погано генералізується?
Я треную нейронну мережу, і втрата тренінгу зменшується, але втрата валідації не робить, або зменшується набагато менше, ніж я б очікував, виходячи з посилань або експериментів із дуже схожими архітектурами та даними. Як я можу це виправити? Щодо питання Що робити, коли моя нервова мережа не навчається? для чого це …


3
Машинне навчання: Чи слід використовувати категоричну перехресну ентропію або бінарну поперечну втрату ентропії для двійкових прогнозів?
Перш за все, я зрозумів, що якщо мені потрібно виконувати двійкові прогнози, я повинен створити принаймні два класи за допомогою кодування з гарячим кодуванням. Це правильно? Однак чи є бінарна перехресна ентропія лише для прогнозів, що мають лише один клас? Якби я використовував категоричну перехресну втрату ентропії, яка зазвичай зустрічається …

5
Вартісна функція нейронної мережі є невипуклою?
Функція вартості нейронної мережі , і вона вважається невипуклою . Я не зовсім розумію, чому це саме так, оскільки, як я бачу, він цілком схожий на вартісну функцію логістичної регресії, правда?J(W,b)J(W,b)J(W,b) Якщо він невипуклий, значить, похідна 2-го порядку , правда?∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0 ОНОВЛЕННЯ Завдяки нижченаведеним відповідям, а також …

4
Як LSTM запобігає проблемі градієнта, що зникає?
LSTM був винайдений спеціально для уникнення проблеми, що втрачає градієнт. Це слід зробити з каруселем постійної помилки (CEC), який на наведеній нижче схемі (від Greff et al. ) Відповідає циклу навколо комірки . (джерело: deeplearning4j.org ) І я розумію, що цю частину можна розглядати як якусь функцію тотожності, тому похідна …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.