Запитання з тегом «loss-functions»

Функція, яка використовується для кількісної оцінки різниці між спостережуваними даними та прогнозованими значеннями відповідно до моделі. Мінімізація функцій втрат - це спосіб оцінити параметри моделі.

2
Чому існує дві різні логістичні формулювання втрат / позначень?
Я бачив два типи формулювання логістичних втрат. Ми можемо легко показати, що вони однакові, єдиною різницею є визначення мітки yyy . Формулювання / позначення 1, y∈{0,+1}y∈{0,+1}y \in \{0, +1\} : L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) де p=11+exp(−βTx)p=11+exp⁡(−βTx)p=\frac 1 {1+\exp(-\beta^Tx)} , де логістична функція відображає дійсне числоβTxβTx\beta^T xна 0,1 інтервал. Формулювання / позначення 2, …

2
Яка функція втрат жорсткої маржі SVM?
Люди кажуть, що SVM з м'якою маржею використовує функцію втрати шарніра: . Однак фактична цільова функція, яку SVM з м'яким запасом намагається мінімізувати, - \ frac {1} {2} \ | w \ | ^ 2 + C \ sum_i \ max (0,1-y_i (w ^ \ intercal x_i + b) ) …

1
Чому функція витрат нейронних мереж не випукла?
Тут є подібна нитка ( Функція вартості нейронної мережі не випукла? ), Але я не зміг зрозуміти моменти у відповідях там, і моя причина знову запитати, сподіваючись, що це прояснить деякі проблеми: Якщо я використовую функцію вартості різниці у квадраті, я в кінцевому підсумку оптимізую щось із вигляду де - …

5
Як контролювати витрати на помилкову класифікацію у випадкових лісах?
Чи можна контролювати вартість помилкової класифікації в пакеті R randomForest ? У моїй власній роботі хибні негативи (наприклад, помилки, що у людини може бути захворювання) набагато дорожчі, ніж помилкові позитиви. Пакет rpart дозволяє користувачеві контролювати витрати на помилкову класифікацію, визначаючи матрицю втрат, щоб по-різному визначити неправильні класифікації. Чи існує щось …

3
Втрати в навчанні збільшуються з часом [дублікат]
На це питання вже є відповіді : Як зміни у вартості можуть бути позитивними? (1 відповідь) Що робити, коли моя нервова мережа не навчається? (5 відповідей) Закрито минулого місяця . Я треную модель (періодична нейронна мережа) для класифікації 4 типів послідовностей. Коли я проходжу тренування, я бачу, що втрата тренувань …

6
Яка «основна» ідея машинного навчання для оцінки параметрів?
"Основна" ідея статистики для оцінки параметрів - максимальна ймовірність . Мені цікаво, яка відповідна ідея в машинному навчанні. Qn 1. Було б справедливо сказати, що "фундаментальною" ідеєю в машинному навчанні для оцінки параметрів є: "Функції втрати" [Примітка. Мені здається, що алгоритми машинного навчання часто оптимізують функцію втрат і, отже, вищезазначене …

3
0-1 Пояснення функції втрати
Я намагаюся зрозуміти, яка мета функції втрати, і я не можу її цілком зрозуміти. Отже, наскільки я розумію, функція втрати полягає в тому, щоб ввести якусь метрику, за допомогою якої ми можемо виміряти "вартість" неправильного рішення. Скажімо, у мене є набір даних із 30 об’єктів, я розділив їх на навчальні …

1
Вибір між функціями втрат для двійкової класифікації
Я працюю в проблемній області, де люди часто повідомляють про ROC-AUC або AveP (середня точність). Однак нещодавно я знайшов папери, які оптимізують втрату журналу , а інші повідомляють про втрату шарніру . Хоча я розумію, як обчислюються ці показники, мені важко зрозуміти компроміси між ними і що добре для чого …

4
За яких умов збігаються байєсівські та частолістські оцінки точок?
З плоским попереднім оцінкою збігаються оцінки ML (частість - максимальна ймовірність) та MAP (байєсівський - максимум a posteriori). Однак у більш загальному плані я говорю про оцінки точок, отримані як оптимізатори певної функції втрат. Тобто (Bayesian) х (x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat …

2
Чи є загальною практикою мінімізація середньої втрати за партіями замість суми?
Tensorflow має приклад навчального посібника щодо класифікації CIFAR-10 . У підручнику середня поперечна втрата ентропії по всій партії зведена до мінімуму. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D …

2
Що відбувається тут, коли я використовую квадратичні втрати для налаштування логістичної регресії?
Я намагаюся використовувати збиток у квадраті, щоб зробити бінарну класифікацію набору даних про іграшки. Я використовую mtcarsнабір даних, використовуйте милю на галон і вагу для прогнозування типу передачі. На графіку нижче показані два типи даних передачі різних кольорів та межа прийняття рішення, породжена різними функціями втрат. Збиток у квадраті - …

4
Що вважається хорошою втратою журналу?
Я намагаюсь краще зрозуміти втрату журналу та як це працює, але я не можу знайти, що я вказую номер втрати журналу в якийсь контекст. Якщо моя модель має втрату журналу 0,5, це добре? Що вважається хорошою та поганою оцінкою? Як змінюються ці пороги?

4
Всебічний огляд функцій втрат?
Я намагаюся отримати глобальну точку зору на деякі найважливіші ідеї машинного навчання, і мені було цікаво, чи існує комплексне трактування різних понять втрат (квадрат, журнал, шарнір, проксі тощо). Я думав про щось більш чітке, формальне представлення чудового посту Джона Ленгфорда на тему « Семантика функцій втрат» .

5
Пояснення функції Yolo Loss
Я намагаюся зрозуміти функцію втрати Yolo v2: λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} Якщо будь-яка людина може деталізувати функцію.

3
втрати шарніру проти логістичних збитків, переваги та недоліки / обмеження
Втрату шарніру можна визначити за допомогою а втрата журналу може бути визначена якмакс ( 0 , 1 - уiшТхi)макс(0,1-уiшТхi)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)журнал ( 1 + розд( - уiшТхi) )журнал(1+досвід⁡(-уiшТхi))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) У мене є такі питання: Чи є якісь недоліки втрати шарніру (наприклад, чутливі до виснажувачів, як зазначено в http://www.unc.edu/~yfliu/papers/rsvm.pdf )? Які …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.