Статистика та великі дані neural-networks

1

Що саме являє собою блок залишкового навчання в контексті глибоких залишкових мереж у глибокому навчанні?

Я читав статтю « Глибоке залишкове навчання для розпізнавання зображень» і у мене виникли труднощі з розумінням на 100%, що означає залишковий блок обчислювально. Читаючи їхній документ, вони мають малюнок 2: що ілюструє, яким повинен бути Залишковий блок. Чи обчислення залишкового блоку просто те саме, що: y =σ( Ш2σ( Ш1x …

12 machine-learning neural-networks deep-learning conv-neural-network residual-networks

2

Різні визначення функції перехресної ентропії

Я почав вивчати нейронні мережі з навчального посібника з нейронної роботи та вивчення навчальних точок. Зокрема, у 3-му розділі є розділ про функцію логічної ентропії та визначається втрата поперечної ентропії як: С= - 1н∑х∑j( уjlnаLj+ ( 1 - уj) лн( 1 - аLj) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

12 neural-networks loss-functions softmax cross-entropy

3

Кодування дата / час (циклічні дані) для нейронних мереж

Як кодувати дату та час події для нейронної мережі? У мене немає безперервного часового ряду, але деякі події з датою та часом, і я аналізую якусь цікавість. Цей інтерес відрізняється між ранком та вечором, і відрізняється між буднями, літом і зимою, перед Різдвом та Великоднем тощо. А самі події мають …

12 neural-networks deep-learning

2

Як працює операція DepthConcat у програмі "Поглиблення із згортками"?

Читання Заглиблюючись глибше із згортками , я натрапив на шар DepthConcat , будівельний блок запропонованих початкових модулів , який поєднує вихід декількох тензорів різної величини. Автори називають це "Фільтр конкатенації". Здається, це є реалізацією для Torch , але я не дуже розумію, що це робить. Чи може хтось пояснити простими …

12 neural-networks torch conv-neural-network

1

Точний тест Фішера та гіпергеометричне поширення

Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це: > soda_gender f m n 0 5 y 5 0 Очевидно, це різке спрощення, але я не хотів, щоб …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

3

Математичне моделювання нейронних мереж як графічних моделей

Я намагаюся зробити математичний зв’язок між нейронною мережею та графічною моделлю. У графічних моделях ідея проста: розподіл ймовірностей розподіляється відповідно до кліків на графіку, при цьому потенціали, як правило, належать до експоненціальної родини. Чи існує рівнозначне міркування для нейронної мережі? Чи можна виразити розподіл ймовірності над одиницями (змінними) в машині …

12 neural-networks markov-process graphical-model deep-learning deep-belief-networks

2

Наскільки глибокий зв’язок між функцією softmax в ML та розподілом Больцмана в термодинаміці?

Функція softmax, яка зазвичай використовується в нейронних мережах для перетворення реальних чисел у ймовірності, - це та сама функція, що і розподіл Больцмана, розподіл ймовірності за енергіями для ансамблю частинок у тепловій рівновазі при заданій температурі T в термодинаміці. Я бачу деякі чіткі евристичні причини, чому це практично: Незалежно від …

12 machine-learning neural-networks softmax

2

Вибір розміру фільтра, кроку тощо у CNN?

Я дивився лекції CS231N зі Стенфорда і намагаюся обернути голову навколо деяких питань архітектури CNN. Що я намагаюся зрозуміти, чи є якісь загальні вказівки щодо вибору розміру фільтра згортки та такі речі, як ходу, чи це більше мистецтво, ніж наука? Як я розумію, об'єднання існує, головним чином, для того, щоб …

12 neural-networks deep-learning conv-neural-network

3

Нелінійність перед кінцевим шаром Softmax у згортковій нейронній мережі

Я вивчаю і намагаюся реалізувати звивисті нейронні мережі, але, мабуть, це питання стосується взагалі багатошарових перцептронів. Вихідні нейрони в моїй мережі представляють активацію кожного класу: найактивніший нейрон відповідає передбачуваному класу для заданого входу. Щоб розглянути можливість перехресної ентропії на навчання, я додаю шар softmax в кінці мережі, так що значення …

12 neural-networks deep-learning conv-neural-network nonlinear softmax

4

Чи параметричні моделі глибокого навчання? Або непараметричні?

Я не думаю, що можна відповісти на всі моделі глибокого навчання. Які моделі глибокого навчання параметричні, а які непараметричні і чому?

12 neural-networks deep-learning nonparametric parametric

4

Які відмінності між автокодерами та t-SNE?

Наскільки мені відомо, і для автонекодерів, і для t-SNE використовують нелінійне зменшення розмірності. Які відмінності між ними і чому я повинен використовувати один проти іншого?

12 neural-networks deep-learning dimensionality-reduction autoencoders tsne

1

Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)

У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247). Квадратичне наближення функції функції задається:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

2

Чому CNN укладаються з шарами FC?

З мого розуміння, CNN складаються з двох частин. Перша частина (шари conv / pool), яка виконує вилучення функції, і друга частина (шари fc), яка робить класифікацію за ознаками. Оскільки повноз'єднані нейронні мережі не є найкращими класифікаторами (тобто вони отримують більшу ефективність від SVM та RFs більшу частину часу), чому CNN …

11 neural-networks svm random-forest conv-neural-network

3

Чутливість до масштабної нейромережевої шкали

Для прикладу, припустимо, ми будуємо оцінку віку, грунтуючись на картині людини. Нижче у нас двоє людей у костюмах, але перша явно молодша за другу. (джерело: tinytux.com ) Існує маса особливостей, які це натякають, наприклад, структура обличчя. Однак найбільш характерною особливістю є співвідношення розміру голови до розміру тіла : (джерело: wikimedia.org …

11 neural-networks computer-vision

3

Як здійснити регуляризацію L2 до довільної точки в просторі?

Ось, що я читав у книзі Ієна Гудфеллоу « Глибоке навчання» . У контексті нейронних мереж "штраф норми параметра L2 зазвичай називають зменшенням ваги. Ця стратегія регуляризації приводить ваги ближче до початку [...]. Більш загально, ми могли б регулювати параметри, щоб бути поблизу будь-якої конкретної точки в просторі ", але …

11 machine-learning neural-networks deep-learning regularization

Запитання з тегом «neural-networks»