Запитання з тегом «deep-learning»

Область машинного навчання, пов'язана з вивченням ієрархічних уявлень даних, в основному з глибокими нейронними мережами.

3
Як здійснити регуляризацію L2 до довільної точки в просторі?
Ось, що я читав у книзі Ієна Гудфеллоу « Глибоке навчання» . У контексті нейронних мереж "штраф норми параметра L2 зазвичай називають зменшенням ваги. Ця стратегія регуляризації приводить ваги ближче до початку [...]. Більш загально, ми могли б регулювати параметри, щоб бути поблизу будь-якої конкретної точки в просторі ", але …

2
Чи пов'язані залишкові мережі з підвищенням градієнта?
Нещодавно ми побачили появу Залишкової Нейронної Мережі, де кожен шар складається з обчислювального модуля та з'єднання, що зберігає вхід до шару, такого як вихід i-го шару демонструє: Мережа дозволяє витягнути залишкові характеристики та дозволяє отримати більш глибоку глибину, в той час як бути більш надійною до зникаючої градієнтної проблеми, досягаючи …

3
Як модель пропуску грам Word2Vec генерує вихідні вектори?
У мене виникають проблеми з розумінням пропускної грамної моделі алгоритму Word2Vec. У безперервному пакеті слів легко зрозуміти, як контекстні слова можуть "поміститися" в нейронній мережі, оскільки ви в основному їх середні після множення кожного з гарячих представлень кодування на вхідну матрицю W. Однак, у випадку пропуску грам, ви отримуєте вектор …

2
Класифікація з частково "невідомими" даними
Припустимо, я хочу вивчити класифікатор, який приймає вектор чисел як вхідний і дає мітку класу як вихід. Мої дані навчання складаються з великої кількості пар вхід-вихід. Однак, коли я приходжу до тестування деяких нових даних, ці дані, як правило, лише частково завершені. Наприклад, якщо вектор вводу має довжину 100, лише …

2
Як пов’язані фільтри та карти активації в конволюційних нейронних мережах?
Як карти активації на даному шарі підключені до фільтрів для цього шару? Я не запитую про те, як зробити згорнуту операцію між фільтром і картою активації, я запитую про тип підключення цих двох. Наприклад, скажіть, що ви хотіли зробити повний зв’язок. У вас є f кількість фільтрів і n кількість …

1
Чи можна використовувати ReLU в автоенкодері як функцію активації?
Під час реалізації автокодера з нейронною мережею більшість людей використовуватиме сигмоїд як функцію активації. Чи можемо ми використовувати замість ReLU? (Оскільки ReLU не має обмежень на верхній межі, в основному означає, що вхідне зображення може мати піксель більше 1, на відміну від обмежених критеріїв для автокодера, коли використовується сигмоїд).

4
Чому ми просто не вивчимо гіпер параметри?
Я реалізовував досить популярний документ " ПОЯСНЕННЯ ТА ПІДПРИЄМСТВО ДОСЛІДНИХ ПРИКЛАДІВ ", і в роботі він тренує протиборчу цільову функцію J '' (θ) = αJ (θ) + (1 - α) J '(θ). Це трактує α як гіперпараметр. α може бути 0,1, 0,2, 0,3 і т.д. Незалежно від цього конкретного документу, …

1
Яка різниця між VAE і стохастичним зворотним розповсюдженням для глибоких генеративних моделей?
Яка різниця між автоматичним кодуванням варіабельних баєсів і стохастичним зворотним розповсюдженням для глибоких генеративних моделей ? Чи веде висновок в обох методах до однакових результатів? Мені невідомі явні явні порівняння між двома методами, незважаючи на те, що обидві групи авторів цитують один одного.

1
Яку функцію втрати я повинен використовувати, щоб оцінити модель RNN seq2seq?
Я працюю над документом Cho 2014, який представив архітектуру кодер-декодер для моделювання seq2seq. У статті вони, здається, використовують ймовірність виходу даного входу (або це негативна ймовірність журналу) як функцію втрати для входу довжини та виходу довжини :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) …

4
різниця між нейронною мережею та глибоким навчанням
З точки зору різниці між нейронною мережею та глибоким навчанням, ми можемо перелічити декілька предметів, таких як включено більше шарів, масивний набір даних, потужне комп'ютерне обладнання, щоб зробити навчання складною моделлю можливою. Окрім них, чи є більш детальне пояснення щодо різниці між NN та DL?

1
Співвідношення між швидкістю навчання та кількістю прихованих шарів?
Чи є якесь правило між глибиною нейронної мережі та швидкістю навчання? Я помічав, що чим глибше мережа, тим нижчим повинен бути рівень навчання. Якщо це правильно, чому це так?

3
Чи можна навчити нейронну мережу малювати зображення в певному стилі?
Чи можна навчити нейронну мережу малювати зображення в певному стилі? (Отже, він знімає зображення і перемальовує його у стилі, для якого він був навчений.) Чи є якась затверджена технологія для такого роду речі? Я знаю про алгоритм DeepArt. Добре заповнити основне зображення певним малюнком (наприклад, vangoghify image), але я шукаю …


1
Як визначити кількість згорткових операторів у CNN?
У завданні комп’ютерного зору, такому як класифікація об'єктів, за допомогою Convolutional Neural Networks (CNN), мережа забезпечує привабливу продуктивність. Але я не впевнений, як налаштувати параметри в згорткових шарах. Наприклад, зображення сірого масштабу ( 480x480), перший згортковий шар може використовувати конволюційний оператор типу 11x11x10, де число 10 означає кількість згорткових операторів. …

2
WaveNet насправді не є розширеною згорткою, чи не так?
В останній роботі WaveNet автори посилаються на свою модель як зі складеними шарами розширених згортків. Вони також створюють наступні діаграми, пояснюючи різницю між "регулярними" згортками та розширеними згортками. Регулярні звивини виглядають так: Це згортання з розміром фільтра 2 та кроком 1, повторюваним у 4 шари. Потім вони показують архітектуру, використану …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.