Запитання з тегом «deep-learning»

Область машинного навчання, пов'язана з вивченням ієрархічних уявлень даних, в основному з глибокими нейронними мережами.

1
Запобігання надмірному набору LSTM на невеликих наборах даних
Я моделюю 15000 твітів для прогнозування настроїв, використовуючи одношаровий LSTM з 128 прихованими одиницями, використовуючи Word2vec-подібне представлення з 80 вимірами. Я отримую точність спуску (38% з випадковим = 20%) після 1 епохи. Якщо більше тренувань, точність валідації починає знижуватися, коли точність тренування починає підніматися - явна ознака надягання. Тому я …

1
Як тренувати LSTM шар глибокої мережі
Для класифікації тексту я використовую lstm та мережу перекладу каналів. Я перетворюю текст в гарячі вектори і подаю кожен в lstm, щоб я міг його узагальнити як єдине подання. Потім я подаю його в іншу мережу. Але як я треную lstm? Я просто хочу, щоб текст класифікував послідовність - чи …

3
Як саме конволюційні нейронні мережі використовують згортку замість множення матриці?
Я читав Книгу Йошуа Бенджіо про глибоке навчання, і це написано на сторінці 224: Конволюційні мережі - це просто нейронні мережі, які використовують згортку замість загального множення матриць принаймні в одному з їх шарів. однак я не був на 100% впевнений у тому, як «замінити матричне множення на згортку» в …

1
Чому на практиці не застосовується алгоритм спуску «Без сідла» Ньютона?
Нещодавно я прочитав статтю Янна Дофіна та ін. Виявлення та атака проблеми сідлових точок у великомірній невипуклій оптимізації , де вони запроваджують цікавий алгоритм спуску під назвою Ньютон , що не є сідлом , який, здається, є спеціально розробленим для оптимізації нейронної мережі і не повинен страждати від застрявання в …


2
Керас: чому зменшення втрат при збільшенні val_loss?
Я налаштовую пошук в сітці для групи парам. Я намагаюся знайти найкращі параметри нейронної мережі Кераса, яка робить бінарну класифікацію. Вихід або 1, або 0. Є близько 200 функцій. Коли я здійснив пошук по сітці, я отримав купу моделей та їх параметрів. Найкраща модель мала ці параметри: Epochs : 20 …

1
Вибір відповідного розміру міні-партії для стохастичного градієнтного спуску (SGD)
Чи є література, яка вивчає вибір розміру міні-партії при виконанні стохастичного градієнтного спуску? На мій досвід, це здається, що це емпіричний вибір, який зазвичай виявляється шляхом перехресної перевірки або з використанням різних правил. Це гарна ідея повільно збільшувати розмір міні-партії, оскільки зменшується помилка перевірки? Які наслідки це матиме на помилку …

2
Модель Google Inception: чому існує кілька софтмакс?
Топологію моделі Google Inception можна знайти тут: Google Inception Netowrk Я помітив, що в цій моделі є 3 softmax-шару (№ 154, № 152, # 145), і 2 з них є якоюсь швидкою втечею цієї моделі. З того, що мені відомо, шар softmax призначений для остаточного виведення, то чому їх так …

3
Чи може нейромережа (наприклад, згорткова нейронна мережа) мати негативні ваги?
Чи можливі негативні ваги (після достатньої кількості епох) для глибоких звивистих нейронних мереж, коли ми використовуємо ReLU для всіх шарів активації?

5
Чи є наочний інструмент для проектування та застосування нейронних мереж / глибокого навчання? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 10 місяців тому . Я знаю, що існує багато бібліотек для машинного навчання та глибокого навчання, таких як caffe, Theano, TensorFlow, keras, ... Але мені здається, …

1
Матрична форма зворотного розмноження з партійною нормалізацією
Нормалізація партії пояснюється значним покращенням продуктивності глибоких нейронних сіток. Багато матеріалів в Інтернеті показує, як реалізувати його на основі активації за допомогою активації. Я вже реалізував backprop, використовуючи матричну алгебру, і враховуючи, що я працюю на мовах високого рівня (покладаючись на Rcpp(а згодом і на GPU) для щільного множення матриці), …

3
Нейрові архітектури: автоматизований дизайн даних
Нещодавній прогрес нейронних мереж узагальнений послідовністю нових архітектур, що характеризуються головним чином зростаючою складністю дизайну. Від LeNet5 (1994) до AlexNet (2012), до Overfeat (2013) та GoogleLeNet / Inception (2014) тощо ... Чи є спроба дозволити машині вирішувати / проектувати, яку архітектуру використовувати, залежно від даних?

4
Як (систематично) налаштовувати рівень навчання з градієнтним походженням як оптимізатор?
Аутсайдер у галузі ML / DL; розпочав курс глибокого навчання Udacity, який базується на Tensorflow; виконання завдання 3 завдання 4; намагаючись налаштувати рівень навчання за допомогою наступної конфігурації: Розмір партії 128 Кількість кроків: достатньо, щоб заповнити 2 епохи Розміри прихованих шарів: 1024, 305, 75 Ініціалізація ваги: ​​усічений нормальний з std. …

2
Захоплення початкових шаблонів при використанні усіченого зворотного розповсюдження через час (RNN / LSTM)
Скажіть, що я використовую RNN / LSTM для аналізу настроїв, що є підходом до багатьох (див. Цей блог ). Мережа тренується за допомогою усіченого зворотного розповсюдження через час (BPTT), де мережа розкручується лише 30 останніх кроків, як зазвичай. У моєму випадку кожен мій розділ тексту, який я хочу класифікувати, набагато …

2
Чому функцію втрати 0-1 не можна усунути?
У книзі Ієна Гудфеллоу « Глибоке навчання» написано саме так Іноді функція втрат, яка насправді хвилює (скажімо, помилка класифікації), не є ефективною оптимізацією. Наприклад, точно зведення до мінімуму очікуваних втрат 0-1, як правило, є незмінним (експоненціальним у вхідному вимірі), навіть для лінійного класифікатора. У таких ситуаціях, як правило, оптимізується функція …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.