Запитання з тегом «deep-learning»

Область машинного навчання, пов'язана з вивченням ієрархічних уявлень даних, в основному з глибокими нейронними мережами.

3
Які переваги складання декількох LSTM?
Які переваги, чому можна використовувати декілька LSTM, складених один на один, у глибокій мережі? Я використовую LSTM, щоб представляти послідовність входів як єдиний вхід. Тож як тільки я маю це єдине представництво - чому я б його передавав знову? Я запитую це, тому що я це бачив у програмі покоління …

1
Чому виправлені лінійні одиниці вважаються нелінійними?
Чому функції активації випрямлених лінійних одиниць (ReLU) вважаються нелінійними? f(x)=max(0,x)f(x)=max(0,x) f(x) = \max(0,x) Вони лінійні, коли вхід позитивний, і з мого розуміння, щоб розблокувати репрезентативну потужність глибоких мереж, нелінійні активації є обов'язковими, інакше вся мережа може бути представлена ​​одним шаром.

1
Що таке варіаційні автокодери та до яких навчальних завдань вони використовуються?
Відповідно до цього та цієї відповіді, автоенкодери здаються технікою, яка використовує нейронні мережі для зменшення розмірів. Мені хотілося б додатково знати, що таке варіаційний автокодер (його основні відмінності / переваги перед «традиційними» автоенкодерами), а також, які основні навчальні завдання для цих алгоритмів використовуються.

3
Що є причиною того, що оптимізатор Адама вважається стійким до значення його гіпер параметрів?
Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Бенджіо, Гудфлоу та Курвіля: Зазвичай Адам вважається досить надійним у виборі гіпер параметрів, хоча інтенсивність навчання іноді потрібно змінити із запропонованого за замовчуванням. якщо це правда, то велика справа, тому …

2
Як у 12-му CNN Крижевського отримує 253,440 нейронів у першому шарі?
У Олексія Крижевського та ін. Класифікація Imagenet із глибокими звивистими нейронними мережами вони перераховують кількість нейронів у кожному шарі (див. Схему нижче). Вхід в мережу є 150 528-мірним, а кількість нейронів у решті шарів мережі визначається 253,440–186,624–64,896–64,896–43,264– 4096–4096–1000. 3D-перегляд Кількість нейронів для всіх шарів після першого зрозуміла. Один простий спосіб …

2
Як ініціалізувати елементи матриці фільтра?
Я намагаюся краще зрозуміти конволюційні нейронні мережі краще, записуючи код Python, який не залежить від бібліотек (наприклад, Convnet або TensorFlow), і я застрягаю в літературі про те, як вибрати значення для матриці ядра, коли виконання згортки на зображенні. Я намагаюся зрозуміти деталі реалізації на кроці між картами функцій на зображенні …

3
Яка архітектура складеного згорткового автокодера?
Тому я намагаюся провести пошук зображень людей за допомогою звивистих сіток. Я читав документи ( Paper1 і Paper2 ) і цю посилання StackOverflow , але я не впевнений , я розумію структуру мережі (вона не визначена в роботах). Запитання: Я можу мати свій вхід, після якого проходить шар шуму, а …

1
Які саме механізми уваги?
Механізми уваги були використані в різних документах поглибленого навчання за останні кілька років. Ілля Суцкевер, керівник досліджень Open AI, захоплено похвалив їх: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Евгеніо Кулурчелло з університету Пердю заявив, що RNN та LSTM повинні бути відмовлені на користь суто нейронних мереж, орієнтованих на увагу: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Це здається перебільшенням, але безперечно, …

3
Чи впливає формат зображення (png, jpg, gif) на те, як тренується нейронна мережа розпізнавання зображень?
Я знаю, що було досягнуто великого прогресу щодо розпізнавання зображень, класифікації зображень тощо з глибокими, згорнутими нейронними сітками. Але якщо я треную мережу на, скажімо, зображеннях PNG, чи буде вона працювати лише для таких закодованих зображень? Які інші властивості зображення впливають на це? (альфа-канал, переплетення, роздільна здатність тощо?)



4
Чому вихід softmax не є хорошим показником невизначеності для моделей Deep Learning?
Я деякий час працюю з конволюційними нейронними мережами (CNN), в основному над даними зображень для семантичної сегментації / сегментації екземплярів. Я часто візуалізував софтмакс мережевого виходу як "теплову карту", щоб побачити, наскільки високі активації пікселя для певного класу. Я інтерпретував низькі активації як "невизначені" / "невпевнені", а високі - як …

2
Машина Больцмана з обмеженими можливостями: як вона використовується в машинному навчанні?
Фон: Так, для обмеження ваг нейронної мережі МОЖЕ бути використана обмежена машина Больцмана (БРМ). Також його можна використовувати "пошарово" шляхом побудови глибокої мережі вірування (тобто тренування -го шару на верхньому ( n - 1 ) -го шару, а потім для підготовки -й шар у верхній частині -го шару, промийте і …

2
Підвищення нейронних мереж
Нещодавно я працював над вивченням алгоритмів прискорення, таких як adaboost, gradient boost, і я знав той факт, що найпоширенішими слабовживаними є дерева. Мені дуже хочеться знати, чи є кілька останніх успішних прикладів (я маю на увазі деякі статті чи статті) для використання нейронних мереж як базового учня.

2
Як працюють вузькі архітектури в нейронних мережах?
Ми визначаємо архітектуру вузького місця як тип, знайдений у статті ResNet, де [два шари конвеєра 3x3] замінені на [один 1x1 conv, один 3x3 conv та інший 1x1 conv шар]. Я розумію, що шари conv 1x1 використовуються як форма зменшення розмірів (і відновлення), що пояснюється в іншій публікації . Однак мені …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.