Запитання з тегом «cross-entropy»

5
Яка функція втрати для багатокласних завдань з класифікацією на багато міток у нейронних мережах?
Я треную нейронну мережу для класифікації набору об'єктів на n-класи. Кожен об'єкт може належати одночасно до декількох класів (багатокласний, багатозначний). Я читав, що для проблем із класом зазвичай рекомендується використовувати softmax та категоричну перехресну ентропію як функцію втрати замість mse, і я розумію більш-менш чому. У моїй проблемі мульти-етикетки не …

6
Поширення за допомогою Softmax / Cross Entropy
Я намагаюся зрозуміти, як працює розмноження для вихідного шару softmax / cross-entropy. Помилка поперечної ентропії є E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j з ttt і ooo в якості цілі та виходу при нейроні jjj відповідно. Сума знаходиться над кожним нейроном у вихідному шарі. ojojo_j сам по собі результат функції softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} …

1
Чому ми використовуємо дивергенцію Куллбека-Лейблера, а не перехресну ентропію в цільовій функції t-SNE?
На мій погляд, розбіжність KL від розподілу вибірки до справжнього розподілу - це просто різниця між перехресною ентропією та ентропією. Чому ми використовуємо перехресну ентропію як функцію витрат у багатьох моделях машинного навчання, а використовуємо дивергенцію Kullback-Leibler в t-sne? Чи є різниця в швидкості навчання?

3
Машинне навчання: Чи слід використовувати категоричну перехресну ентропію або бінарну поперечну втрату ентропії для двійкових прогнозів?
Перш за все, я зрозумів, що якщо мені потрібно виконувати двійкові прогнози, я повинен створити принаймні два класи за допомогою кодування з гарячим кодуванням. Це правильно? Однак чи є бінарна перехресна ентропія лише для прогнозів, що мають лише один клас? Якби я використовував категоричну перехресну втрату ентропії, яка зазвичай зустрічається …

2
Чому середньоквадратична помилка є перехресною ентропією між емпіричним розподілом та гауссова модель?
У 5.5, « Глибоке навчання» (Ian Goodfellow, Yushua Bengio та Aaron Courville), він стверджує, що Будь-яка втрата, що складається з негативної логічної ймовірності, є перехресною ентропією між емпіричним розподілом, визначеним навчальним набором, та розподілом ймовірностей, визначеним моделлю. Наприклад, середня помилка у квадраті - це перехресна ентропія між емпіричним розподілом та …

2
Функція втрати коефіцієнта кістки та поперечної ентропії
Під час навчання піксельних нейронних мереж сегментації пікселів, таких як повністю згорнуті мережі, як ви приймаєте рішення використовувати функцію втрати перехресної ентропії та функцію втрати коефіцієнта кістки? Я усвідомлюю, що це коротке запитання, але не зовсім впевнений, яку ще інформацію надавати. Я переглянув купу документації про дві функції втрат, але …

1
Функція втрати для автокодерів
Я експериментую трохи автокодерами, і за допомогою tensorflow я створив модель, яка намагається відновити набір даних MNIST. Моя мережа дуже проста: X, e1, e2, d1, Y, де e1 і e2 - це кодуючі шари, d2 і Y - декодуючі шари (а Y - реконструйований вихід). X має 784 одиниці, e1 …

5
Чи має значення перехресна ентропія в контексті регресії?
Чи має значення перехресна ентропія в контексті регресії (на відміну від класифікації)? Якщо так, чи могли б ви навести приклад іграшки через TensorFlow? Якщо ні, то чому б і ні? Я читав про крос-ентропію в нейронних мережах та глибоке навчання Майкла Нільсена, і, здається, щось таке, що природно можна було …

2
Різні визначення функції перехресної ентропії
Я почав вивчати нейронні мережі з навчального посібника з нейронної роботи та вивчення навчальних точок. Зокрема, у 3-му розділі є розділ про функцію логічної ентропії та визначається втрата поперечної ентропії як: С= - 1н∑х∑j( уjlnаLj+ ( 1 - уj) лн( 1 - аLj) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

4
Наскільки значущим є зв’язок між MLE та крос-ентропією у глибокому навчанні?
Я розумію , що даний набір mmm незалежних спостережень максимального правдоподібності оцінювач (або, що еквівалентно, карта з плоскою / рівномірної до) , який ідентифікує параметрів , які виробляють розподіл моделі що найкраще відповідає цим спостереженнямO={o(1),...,o(m)}O={o(1),...,o(m)}\mathbb{O}=\{\mathbf{o}^{(1)}, . . . , \mathbf{o}^{(m)}\}θθ\mathbf{θ}pmodel(⋅;θ)pmodel(⋅;θ)p_{model}\left(\,\cdot\, ; \mathbf{θ}\right) θML(O)=pmodel(O;θ)=argmaxθ‎‎∏i=1mpmodel(o(i);θ)θML(O)=pmodel(O;θ)=arg⁡maxθ‎‎∏i=1mpmodel(o(i);θ)\mathbf{θ}_{ML}(\mathbb{O})= p_{model}\left(\mathbb{O}; \mathbf{θ}\right) = \underset{\mathbf{θ}}{\arg\max}‎‎\prod_{i=1}^{m} p_{model}\left(\mathbf{o}^{(i)}; \mathbf{θ}\right) або, …

1
Інтуїтивно, чому перехресна ентропія є мірою відстані двох розподілів ймовірностей?
Для двох дискретних розподілів і поперечна ентропія визначається якpppqqq H(p,q)=−∑xp(x)logq(x).H(p,q)=−∑xp(x)log⁡q(x).H(p,q)=-\sum_x p(x)\log q(x). Цікаво, чому це була б інтуїтивна міра відстані між двома розподілами ймовірностей? Я бачу, що - ентропія , яка вимірює "здивування" . - міра, яка частково замінює на . Я досі не розумію інтуїтивного значення, що стоїть за …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.