Запитання з тегом «softmax»

Нормалізуюча експоненціальна функція, яка перетворює числовий вектор таким, що всі його записи стають між 0 і 1 і разом дорівнюють 1. Часто використовується як кінцевий шар нейронної мережі, що виконує завдання класифікації.

4
Функція Softmax vs Sigmoid в логістичному класифікаторі?
Що визначає вибір функції (Softmax vs Sigmoid) у логістичному класифікаторі? Припустимо, є 4 вихідні класи. Кожна з наведених вище функцій дає ймовірність правильного виходу кожного класу. То який із них взяти за класифікатор?

6
Поширення за допомогою Softmax / Cross Entropy
Я намагаюся зрозуміти, як працює розмноження для вихідного шару softmax / cross-entropy. Помилка поперечної ентропії є E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j з ttt і ooo в якості цілі та виходу при нейроні jjj відповідно. Сума знаходиться над кожним нейроном у вихідному шарі. ojojo_j сам по собі результат функції softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} …

1
Вірогідність перехресної ентропії або журналу у вихідному шарі
Я читаю цю сторінку: http://neuralnetworksanddeeplearning.com/chap3.html і було сказано, що сигмоїдний вихідний шар з перехресною ентропією досить подібний з вихідним шаром softmax з вірогідністю лог. що трапиться, якщо я використовую сигмоїд з вірогідністю лога або softmax з перехресною ентропією у вихідному шарі? це добре? тому що я бачу, що між рівнями …

4
Чому вихід softmax не є хорошим показником невизначеності для моделей Deep Learning?
Я деякий час працюю з конволюційними нейронними мережами (CNN), в основному над даними зображень для семантичної сегментації / сегментації екземплярів. Я часто візуалізував софтмакс мережевого виходу як "теплову карту", щоб побачити, наскільки високі активації пікселя для певного класу. Я інтерпретував низькі активації як "невизначені" / "невпевнені", а високі - як …

2
Чому для обчислення ймовірностей використовується функція softmax, хоча ми можемо розділити кожне значення на суму вектора?
Застосування функції softmax на вектор призведе до "ймовірностей" і значень між і . 000111 Але ми також можемо розділити кожне значення на суму вектора, що призведе до ймовірностей і значень між і .000111 Я читаю відповідь тут, але в ній сказано, що причина полягає в тому, що вона відрізняється, хоча …

1
Як налаштувати нейронну мережу для виведення порядкових даних?
У мене створена нейронна мережа, щоб передбачити щось, де вихідна змінна є порядковою. Я опишу нижче, використовуючи три можливі виходи A <B <C. Цілком очевидно, як використовувати нейронну мережу для виведення категоричних даних: вихід - це лише програмна макс останнього (зазвичай повністю підключеного) шару, по одному на категорію, а передбачувана …

1
Caret glmnet vs cv.glmnet
Здається, існує велика плутанина в порівнянні використання glmnetв рамках caretпошуку оптимальної лямбда та використання cv.glmnetтого ж завдання. Поставлено багато питань, наприклад: Класифікаційна модель train.glmnet vs. cv.glmnet? Який правильний спосіб використання glmnet з каретою? Перехресне підтвердження `glmnet` за допомогою` caret` але відповіді не надано, що може бути пов'язано з відтворюваністю питання. …

3
Чому ієрархічна софтмакс краща для рідкісних слів, тоді як негативна вибірка краща для частих слів?
Цікаво, чому ієрархічний софтмакс кращий для нечастого слова, тоді як негативний вибірки краще для частих слів у моделях CBOW та пропуску грам word2vec. Я прочитав претензію на https://code.google.com/p/word2vec/ .

2
Різні визначення функції перехресної ентропії
Я почав вивчати нейронні мережі з навчального посібника з нейронної роботи та вивчення навчальних точок. Зокрема, у 3-му розділі є розділ про функцію логічної ентропії та визначається втрата поперечної ентропії як: С= - 1н∑х∑j( уjlnаLj+ ( 1 - уj) лн( 1 - аLj) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

2
Наскільки глибокий зв’язок між функцією softmax в ML та розподілом Больцмана в термодинаміці?
Функція softmax, яка зазвичай використовується в нейронних мережах для перетворення реальних чисел у ймовірності, - це та сама функція, що і розподіл Больцмана, розподіл ймовірності за енергіями для ансамблю частинок у тепловій рівновазі при заданій температурі T в термодинаміці. Я бачу деякі чіткі евристичні причини, чому це практично: Незалежно від …

3
Нелінійність перед кінцевим шаром Softmax у згортковій нейронній мережі
Я вивчаю і намагаюся реалізувати звивисті нейронні мережі, але, мабуть, це питання стосується взагалі багатошарових перцептронів. Вихідні нейрони в моїй мережі представляють активацію кожного класу: найактивніший нейрон відповідає передбачуваному класу для заданого входу. Щоб розглянути можливість перехресної ентропії на навчання, я додаю шар softmax в кінці мережі, так що значення …


3
Як застосувати Softmax як функцію активації в багатошаровому Perceptron в scikit-learn? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 11 місяців тому . Мені потрібно застосувати функцію активації Softmax до багатошарового Perceptron у scikit. Scikit documantation на тему мережевих моделей Neural ( під контролем) говорить …

3
Багаточленна логістична втрата проти (Поперечна Ентропія проти Квадратної Помилки)
Я зауважив, що Caffe (глибока рамка навчання) використовувала рівень втрат Softmax SoftmaxWithLoss як вихідний шар для більшості зразків моделі . Наскільки мені відомо, рівень втрати Softmax - це поєднання багатошарового логістичного рівня втрат та шару Softmax . З Кафе вони сказали це Розрахунок градієнта рівня втрат Softmax втрат більш чисельно …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.