Запитання з тегом «neural-networks»

Штучні нейронні мережі (АНН) - це широкий клас обчислювальних моделей, що базуються на біологічних нейронних мережах. Вони охоплюють подачі NN (включаючи "глибокі" NN), звивисті NN, повторювані NN тощо.

1
Що саме являє собою блок залишкового навчання в контексті глибоких залишкових мереж у глибокому навчанні?
Я читав статтю « Глибоке залишкове навчання для розпізнавання зображень» і у мене виникли труднощі з розумінням на 100%, що означає залишковий блок обчислювально. Читаючи їхній документ, вони мають малюнок 2: що ілюструє, яким повинен бути Залишковий блок. Чи обчислення залишкового блоку просто те саме, що: y =σ( Ш2σ( Ш1x …

2
Різні визначення функції перехресної ентропії
Я почав вивчати нейронні мережі з навчального посібника з нейронної роботи та вивчення навчальних точок. Зокрема, у 3-му розділі є розділ про функцію логічної ентропії та визначається втрата поперечної ентропії як: С= - 1н∑х∑j( уjlnаLj+ ( 1 - уj) лн( 1 - аLj) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

3
Кодування дата / час (циклічні дані) для нейронних мереж
Як кодувати дату та час події для нейронної мережі? У мене немає безперервного часового ряду, але деякі події з датою та часом, і я аналізую якусь цікавість. Цей інтерес відрізняється між ранком та вечором, і відрізняється між буднями, літом і зимою, перед Різдвом та Великоднем тощо. А самі події мають …

2
Як працює операція DepthConcat у програмі "Поглиблення із згортками"?
Читання Заглиблюючись глибше із згортками , я натрапив на шар DepthConcat , будівельний блок запропонованих початкових модулів , який поєднує вихід декількох тензорів різної величини. Автори називають це "Фільтр конкатенації". Здається, це є реалізацією для Torch , але я не дуже розумію, що це робить. Чи може хтось пояснити простими …

1
Точний тест Фішера та гіпергеометричне поширення
Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це: > soda_gender f m n 0 5 y 5 0 Очевидно, це різке спрощення, але я не хотів, щоб …

3
Математичне моделювання нейронних мереж як графічних моделей
Я намагаюся зробити математичний зв’язок між нейронною мережею та графічною моделлю. У графічних моделях ідея проста: розподіл ймовірностей розподіляється відповідно до кліків на графіку, при цьому потенціали, як правило, належать до експоненціальної родини. Чи існує рівнозначне міркування для нейронної мережі? Чи можна виразити розподіл ймовірності над одиницями (змінними) в машині …

2
Наскільки глибокий зв’язок між функцією softmax в ML та розподілом Больцмана в термодинаміці?
Функція softmax, яка зазвичай використовується в нейронних мережах для перетворення реальних чисел у ймовірності, - це та сама функція, що і розподіл Больцмана, розподіл ймовірності за енергіями для ансамблю частинок у тепловій рівновазі при заданій температурі T в термодинаміці. Я бачу деякі чіткі евристичні причини, чому це практично: Незалежно від …

2
Вибір розміру фільтра, кроку тощо у CNN?
Я дивився лекції CS231N зі Стенфорда і намагаюся обернути голову навколо деяких питань архітектури CNN. Що я намагаюся зрозуміти, чи є якісь загальні вказівки щодо вибору розміру фільтра згортки та такі речі, як ходу, чи це більше мистецтво, ніж наука? Як я розумію, об'єднання існує, головним чином, для того, щоб …

3
Нелінійність перед кінцевим шаром Softmax у згортковій нейронній мережі
Я вивчаю і намагаюся реалізувати звивисті нейронні мережі, але, мабуть, це питання стосується взагалі багатошарових перцептронів. Вихідні нейрони в моїй мережі представляють активацію кожного класу: найактивніший нейрон відповідає передбачуваному класу для заданого входу. Щоб розглянути можливість перехресної ентропії на навчання, я додаю шар softmax в кінці мережі, так що значення …



1
Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)
У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247). Квадратичне наближення функції функції задається:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

2
Чому CNN укладаються з шарами FC?
З мого розуміння, CNN складаються з двох частин. Перша частина (шари conv / pool), яка виконує вилучення функції, і друга частина (шари fc), яка робить класифікацію за ознаками. Оскільки повноз'єднані нейронні мережі не є найкращими класифікаторами (тобто вони отримують більшу ефективність від SVM та RFs більшу частину часу), чому CNN …

3
Чутливість до масштабної нейромережевої шкали
Для прикладу, припустимо, ми будуємо оцінку віку, грунтуючись на картині людини. Нижче у нас двоє людей у ​​костюмах, але перша явно молодша за другу. (джерело: tinytux.com ) Існує маса особливостей, які це натякають, наприклад, структура обличчя. Однак найбільш характерною особливістю є співвідношення розміру голови до розміру тіла : (джерело: wikimedia.org …

3
Як здійснити регуляризацію L2 до довільної точки в просторі?
Ось, що я читав у книзі Ієна Гудфеллоу « Глибоке навчання» . У контексті нейронних мереж "штраф норми параметра L2 зазвичай називають зменшенням ваги. Ця стратегія регуляризації приводить ваги ближче до початку [...]. Більш загально, ми могли б регулювати параметри, щоб бути поблизу будь-якої конкретної точки в просторі ", але …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.