Запитання з тегом «deep-learning»

Область машинного навчання, пов'язана з вивченням ієрархічних уявлень даних, в основному з глибокими нейронними мережами.

3
Мотивація сигмоїдних вихідних одиниць у нейронних мережах, починаючи з ненормалізованих ймовірностей журналу, лінійних у
Передумови: Я вивчаю розділ 6 «Глибоке навчання» Іона Гудфллоу та Йошуа Бенджо та Аарона Курвіля. У розділі 6.2.2.2 (сторінки 182 з 183, які можна переглянути тут ) використання сигмоїдів для виведення P(y=1|x)P(y=1|x)P(y=1|x) мотивовано. Підсумовуючи частину матеріалу, вони дозволяють z=wTh+bz=wTh+bz = w^Th+b бути вихідним нейроном до застосування активації, де hhh - …

2
Яка різниця між «регулярною» лінійною регресією та лінійною регресією глибокого навчання?
Я хочу знати різницю між лінійною регресією у звичайному аналізі машинного навчання та лінійною регресією в умовах «глибокого навчання». Які алгоритми використовуються для лінійної регресії в умовах глибокого навчання.

1
Що саме являє собою блок залишкового навчання в контексті глибоких залишкових мереж у глибокому навчанні?
Я читав статтю « Глибоке залишкове навчання для розпізнавання зображень» і у мене виникли труднощі з розумінням на 100%, що означає залишковий блок обчислювально. Читаючи їхній документ, вони мають малюнок 2: що ілюструє, яким повинен бути Залишковий блок. Чи обчислення залишкового блоку просто те саме, що: y =σ( Ш2σ( Ш1x …

2
Використовуйте коефіцієнт кореляції Пірсона як оптимізацію в машинному навчанні
У машинному навчанні (для проблем з регресією) я часто бачу середню квадратичну помилку (MSE) або середню абсолютну помилку (MAE), яка використовується як функція помилок для мінімізації (плюс термін регуляризації). Мені цікаво, чи є ситуації, коли використання коефіцієнта кореляції було б більш доцільним? якщо така ситуація існує, то: За яких ситуацій …

3
Кодування дата / час (циклічні дані) для нейронних мереж
Як кодувати дату та час події для нейронної мережі? У мене немає безперервного часового ряду, але деякі події з датою та часом, і я аналізую якусь цікавість. Цей інтерес відрізняється між ранком та вечором, і відрізняється між буднями, літом і зимою, перед Різдвом та Великоднем тощо. А самі події мають …

3
Математичне моделювання нейронних мереж як графічних моделей
Я намагаюся зробити математичний зв’язок між нейронною мережею та графічною моделлю. У графічних моделях ідея проста: розподіл ймовірностей розподіляється відповідно до кліків на графіку, при цьому потенціали, як правило, належать до експоненціальної родини. Чи існує рівнозначне міркування для нейронної мережі? Чи можна виразити розподіл ймовірності над одиницями (змінними) в машині …

2
Вибір розміру фільтра, кроку тощо у CNN?
Я дивився лекції CS231N зі Стенфорда і намагаюся обернути голову навколо деяких питань архітектури CNN. Що я намагаюся зрозуміти, чи є якісь загальні вказівки щодо вибору розміру фільтра згортки та такі речі, як ходу, чи це більше мистецтво, ніж наука? Як я розумію, об'єднання існує, головним чином, для того, щоб …

4
Наскільки значущим є зв’язок між MLE та крос-ентропією у глибокому навчанні?
Я розумію , що даний набір mmm незалежних спостережень максимального правдоподібності оцінювач (або, що еквівалентно, карта з плоскою / рівномірної до) , який ідентифікує параметрів , які виробляють розподіл моделі що найкраще відповідає цим спостереженнямO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) або, …


3
Нелінійність перед кінцевим шаром Softmax у згортковій нейронній мережі
Я вивчаю і намагаюся реалізувати звивисті нейронні мережі, але, мабуть, це питання стосується взагалі багатошарових перцептронів. Вихідні нейрони в моїй мережі представляють активацію кожного класу: найактивніший нейрон відповідає передбачуваному класу для заданого входу. Щоб розглянути можливість перехресної ентропії на навчання, я додаю шар softmax в кінці мережі, так що значення …



5
Яку функцію втрати слід використовувати для двійкового виявлення при виявленні обличчя / без обличчя в CNN?
Я хочу використовувати глибоке навчання для тренування бінарного виявлення обличчя / без обличчя, яку втрату я повинен використовувати, я думаю, що це SigmoidCrossEntropyLoss або Hinge-loss . Це правильно, але мені також цікаво, чи варто використовувати софтмакс, але лише з двома класами?

1
Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)
У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247). Квадратичне наближення функції функції задається:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

4
Невірогідний висновок - що це означає?
Нещодавно мені стало відомо про «вірогідні» методи, які перебувають у літературі. Однак мені не ясно, що означає спосіб висновку чи оптимізації бути вірогідним . При машинному навчанні мета зазвичай полягає в тому, щоб максимально збільшити ймовірність того, що деякі параметри підходять до функції, наприклад, ваги в нейронній мережі. Тож у …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.