Запитання з тегом «deep-learning»

нова область досліджень машинного навчання, що стосується технологій, що використовуються для вивчення ієрархічних уявлень даних, в основному це робиться з глибокими нейронними мережами (тобто мережами з двома або більше прихованими шарами), а також з деякими імовірнісними графічними моделями.

5
Яка проблема "вмираючої ReLU" в нейронних мережах?
Посилаючись на примітки курсу Стенфорда про конволюційні нейронні мережі для візуального розпізнавання , в пункті сказано: "На жаль, підрозділи ReLU можуть бути крихкими під час тренування і можуть" померти ". Наприклад, великий градієнт, що протікає через нейрон ReLU, може призвести до того, що ваги оновлюються таким чином, що нейрон ніколи …

6
Коли використовувати GRU через LSTM?
Ключова відмінність між GRU та LSTM полягає в тому, що GRU має два ворота (ворота скидання та оновлення ), тоді як LSTM має три ворота (а саме вхідні , вихідні та забуті ворота). Чому ми використовуємо GRU, коли явно маємо більше контролю в мережі через модель LSTM (оскільки у нас …

8
Вибір курсу навчання
Зараз я працюю над впровадженням стохастичного градієнтного спуску SGDдля нейронних мереж, що використовують зворотне розповсюдження, і, хоча я розумію його мету, у мене є деякі питання щодо того, як вибрати значення для швидкості навчання. Чи пов’язана ступінь навчання з формою градієнта помилок, оскільки це диктує швидкість спуску? Якщо так, то …

15
Як ви візуалізуєте архітектури нейронної мережі?
Під час написання статті / презентації теми, що стосується нейронних мереж, зазвичай візуалізується архітектура мереж. Які хороші / прості способи візуалізації загальних архітектур автоматично?


5
Прогнозування часових рядів за допомогою ARIMA проти LSTM
Проблема, з якою я маю справу, - передбачення значень часових рядів. Я дивлюся по одному часовому ряду і, спираючись, наприклад, на 15% вхідних даних, я хотів би передбачити його майбутні значення. Поки що я натрапив на дві моделі: LSTM (довготривала короткочасова пам'ять; клас періодичних нейронних мереж) АРІМА Я спробував обидва …

2
Коли використовувати (He або Glorot) звичайну ініціалізацію над рівномірним init? І які наслідки це стосується пакетної нормалізації?
Я знав, що Залишкова мережа (ResNet) зробила звичайну ініціалізацію популярною. У ResNet використовується нормальна ініціалізація He , тоді як перший шар використовує He рівномірну ініціалізацію. Я переглянув папір ResNet і папір "Deving Deep into Rectifiers" (Папір він ініціалізації), але не знайшов жодної згадки про нормальний init vs uniform init. Також: …

3
Як боротися з недостатністю в глибокій нервовій мережі
Коли я почав працювати зі штучними нейронними мережами (NN), я вважав, що мені доведеться боротися з надмірною обробкою як основну проблему. Але на практиці я навіть не можу змусити NN пройти 20-відсотковий бар'єр помилок. Я навіть не можу побити свій рахунок у випадковому лісі! Я шукаю дуже загальну чи не …

3
Кількість параметрів у моделі LSTM
Скільки параметрів має односкладений LSTM? Кількість параметрів накладає нижню межу на кількість необхідних прикладів тренувань, а також впливає на час навчання. Отже, знання кількості параметрів є корисним для навчальних моделей з використанням LSTM.

4
Додавання функцій до моделі часових рядів LSTM
читав трохи про LSTM та їх використання для часових рядів, і це було цікаво, але важко водночас. Одне, що у мене виникли труднощі з розумінням, - це підхід до додавання додаткових функцій до того, що вже є переліком функцій часових рядів. Припустимо, що у вас є такий набір даних так: …

4
Чому розмір міні-партії краще, ніж одна «партія» з усіма навчальними даними?
Я часто читаю, що для моделей Deep Learning звичайною практикою є застосування міні-партій (як правило, невеликих, 32/64) протягом кількох навчальних епох. Я не можу зрозуміти причину цього. Якщо я не помиляюся, розмір партії - це кількість екземплярів тренувань, які модель бачила під час ітерації тренувань; і епоха - це повна …

3
Чи має batch_size в Керасі вплив на якість результатів?
Я збираюся тренувати велику мережу LSTM з 2-3 мільйонами статей і борюся з помилками пам'яті (я використовую AWS EC2 g2x2large). Я з'ясував, що одне рішення - зменшити batch_size. Однак я не впевнений, чи цей параметр пов’язаний лише з проблемами ефективності пам'яті чи він вплине на мої результати. Власне кажучи, я …

3
Яка різниця між "еквівалентом перекладу" та "інваріантним для перекладу"
У мене виникають проблеми з розумінням різниці між еквівалентом перекладу та інваріантним для перекладу . У книзі « Глибоке навчання» . MIT Press, 2016 (I. Goodfellow, A. Courville, Y. Bengio), можна знайти в конволюційних мережах: [...] конкретна форма спільного використання параметрів спричиняє властивість шару, який називається еквівалентністю перекладу [...] об'єднання …

13
Наука даних, пов’язаних із смішними цитатами
Користувачі різних спільнот звикли цитувати смішні речі про свої поля. Можливо, буде цікаво ділитися своїми смішними речами про машинне навчання, глибоке навчання, наукові дані та речі, з якими ви стикаєтеся щодня!

6
Пояснення перехресної ентропії
Припустимо, я будую НН для класифікації. Останній шар - щільний шар з активацією softmax. У мене є п'ять різних класів для класифікації. Припустимо, для єдиного прикладу тренувань true labelє [1 0 0 0 0]прогнози, поки це буде [0.1 0.5 0.1 0.1 0.2]. Як би я обчислив перехресну втрату ентропії для …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.