Запитання з тегом «loss-functions»

Функція, яка використовується для кількісної оцінки різниці між спостережуваними даними та прогнозованими значеннями відповідно до моделі. Мінімізація функцій втрат - це спосіб оцінити параметри моделі.

2
Чому k-засоби не оптимізовані за допомогою градієнтного спуску?
Я знаю, що k-засоби, як правило, оптимізуються за допомогою максимізації очікування . Однак ми могли б оптимізувати його функцію втрат так само, як і будь-яку іншу! Я знайшов деякі документи, які фактично використовують стохастичний градієнтний спуск для великомасштабних k-засобів, але не змогли отримати відповідь на моє питання. Отже, хтось знає, …

2
Класифікація з галасливими мітками?
Я намагаюся навчити нейронну мережу для класифікації, але мітки, які у мене є, досить шумні (близько 30% міток неправильні). Втрата перехресної ентропії справді працює, але мені було цікаво, чи є в цьому випадку якісь альтернативи? чи оптимальна втрата перехресної ентропії? Я не впевнений, але я думаю про те, щоб дещо …

1
Струсово-дисперсійне розкладання
У розділі 3.2 Розпізнавання шаблону Єпископа та машинного навчання він розглядає декомпозицію дисперсійної дисперсії, заявляючи, що для функції збитку в квадраті очікувана втрата може бути розкладена на термін зсуву в квадрат (який описує, наскільки середні прогнози від істинного модель), термін дисперсії (який описує поширення прогнозів навколо середнього) та термін шуму …

1
Чому класифікатор наївних баєсів оптимальний для втрати 0-1?
Класифікатор Naive Bayes - це класифікатор, який присвоює елементи хxx класу СCC на основі максимізації заднього П( С| х)P(C|x)P(C|x) для приналежності до класу, і передбачає, що функції елементів не залежать. Втрата 0-1 - це втрата, яка присвоює будь-якій помилковій класифікації втрату "1", а втрату "0" - будь-якій правильній класифікації. Я …

2
Чому функцію втрати 0-1 не можна усунути?
У книзі Ієна Гудфеллоу « Глибоке навчання» написано саме так Іноді функція втрат, яка насправді хвилює (скажімо, помилка класифікації), не є ефективною оптимізацією. Наприклад, точно зведення до мінімуму очікуваних втрат 0-1, як правило, є незмінним (експоненціальним у вхідному вимірі), навіть для лінійного класифікатора. У таких ситуаціях, як правило, оптимізується функція …

2
Різні визначення функції перехресної ентропії
Я почав вивчати нейронні мережі з навчального посібника з нейронної роботи та вивчення навчальних точок. Зокрема, у 3-му розділі є розділ про функцію логічної ентропії та визначається втрата поперечної ентропії як: С= - 1н∑х∑j( уjlnаLj+ ( 1 - уj) лн( 1 - аLj) )C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln …

1
Градієнт для функції логістичних втрат
Я б задавав питання, пов’язане з цим . Я знайшов приклад написання спеціальної функції втрати для xgboost тут : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute …

5
Яку функцію втрати слід використовувати для двійкового виявлення при виявленні обличчя / без обличчя в CNN?
Я хочу використовувати глибоке навчання для тренування бінарного виявлення обличчя / без обличчя, яку втрату я повинен використовувати, я думаю, що це SigmoidCrossEntropyLoss або Hinge-loss . Це правильно, але мені також цікаво, чи варто використовувати софтмакс, але лише з двома класами?

1
Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)
У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247). Квадратичне наближення функції функції задається:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

3
Яку функцію втрати слід використовувати для отримання високої точності або високого виклику бінарного класифікатора?
Я намагаюся зробити детектор об'єктів, які трапляються дуже рідко (на зображеннях), планую використовувати двійковий класифікатор CNN, застосований у розсувному / зміненому вікні. Я сконструював збалансований набір для позитивних і негативних тренувань 1: 1 (чи правильно це робити в такому випадку btw?), І класифікатор добре працює на тестовому наборі з точки …

1
Функція втрати біноміального відхилення Scikit
Це функція втрати біноміального відхилення від scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() …

2
Процентні функції втрат
Рішення проблеми: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] добре відомо, що є медіаною XXX , але як виглядає функція втрат для інших відсотків? Наприклад: 25-й перцентиль X - це рішення для: minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] Що таке LLL у цьому випадку?

3
MAP - це рішення
Я натрапив на ці слайди (слайд №16 та №17) на одному з онлайн-курсів. Викладач намагався пояснити, як Максимальна задня оцінка (MAP) насправді є рішенням , де є істинний параметр.θ ∗L ( θ ) = I[ θ ≠ θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} Може хтось, будь ласка, пояснить, як це випливає? …

1
Яку функцію втрати я повинен використовувати, щоб оцінити модель RNN seq2seq?
Я працюю над документом Cho 2014, який представив архітектуру кодер-декодер для моделювання seq2seq. У статті вони, здається, використовують ймовірність виходу даного входу (або це негативна ймовірність журналу) як функцію втрати для входу довжини та виходу довжини :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) …

1
Як оцінювач, що мінімізує зважену суму квадратичного зміщення та дисперсії, вписується в теорію рішення?
Гаразд - моє оригінальне повідомлення не вдалося отримати відповідь; так, дозвольте мені поставити питання по-іншому. Почну з пояснення свого розуміння оцінки з теоретичної точки зору рішення. Я не маю жодної формальної підготовки, і це не здивувало б мене, якщо моє мислення якимось чином має помилки. Припустимо, у нас є деяка …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.