Які наслідки вибору різних функцій втрат у класифікації для приблизної втрати 0-1


27

Ми знаємо, що деякі об'єктивні функції легше оптимізувати, а деякі - важкі. І є багато функцій втрат, які ми хочемо використовувати, але важко використовувати, наприклад, втрата 0-1. Тож ми знаходимо деякі функції втрати проксі-сервера для виконання роботи. Наприклад, ми використовуємо втрату шарніру або логістичну втрату, щоб "приблизно" втратити 0-1.

Наступний сюжет іде з книги PRML Кріса Бішопа . Втрата шарніра зображена синім кольором, втрата журналу - червоним кольором, втрата квадратного кольору зеленим кольором та помилка 0/1 чорним кольором.

введіть тут опис зображення

Я розумію, що у нас є така конструкція (для шарнірів і логістичних втрат), це те, що ми хочемо, щоб об'єктивна функція була опуклою.

Дивлячись на втрати шарніру та логістичні втрати, вона більше накладає штрафи на сильно неправильно класифіковані екземпляри , і що цікаво, вона також карає правильно класифіковані випадки, якщо вони слабо класифіковані . Це дійсно дивний дизайн.

Моє запитання - які ціни нам потрібно платити за допомогою різних "функцій втрати проксі-сервера", таких як втрати шарніру та логістичні втрати?


В регресії вибору втрат у квадраті простіше зробити оптимізацію порівняно з абсолютною втратою величини. Але збиток у квадраті більш чутливий до людей, що втратили шкоду. Отже, він також повинен бути чутливим до певного типу даних?
Хайтао Ду

4
Простіше рішення - розробити оптимальні прогнозовані ймовірності, які не потребують функції корисності. Функція корисності / втрати може бути застосована пізніше фактичним особою, яка приймає рішення. Класифікація рівнозначна прийняттю рішення для особи, яка приймає рішення, і вимагає занадто багато знань наперед.
Френк Харрелл

@FrankHarrell Дякую, і я використовую підхід, який ви згадали на роботі, де ми розділяємо прогнози та ділові операції. Однак це все ще не оптимізоване в цілому, а жадібне сценічне місцеве рішення, правда? Це "страусина політика"?
Хайтао Ду

2
Це може не призвести до оптимальних рішень. Функція втрат / корисності / вартості не походить від модельних прогнозів.
Френк Харрелл

1
+1. Мінімізація логістичних втрат відповідає максимізації біноміальних ймовірностей. Мінімізація втрат у квадраті-помилки відповідає максимізації ймовірності Гаусса (це лише регресія OLS; для 2-класової класифікації це фактично еквівалентно LDA). Чи знаєте ви, чи мінімізація втрат шарніру відповідає максимізації деякої іншої ймовірності? Тобто чи існує імовірнісна модель, що відповідає втраті шарніра?
амеба каже, що повернеться до Моніки

Відповіді:


16

Деякі мої думки, можливо, невірні.

Я розумію, що у нас є така конструкція (для шарнірів і логістичних втрат), це те, що ми хочемо, щоб об'єктивна функція була опуклою.

Опуклість, безумовно, приємна властивість, але я думаю, що найважливішою причиною є те, що ми хочемо, щоб об'єктивна функція мала ненульові похідні , щоб ми могли використовувати похідні для її вирішення. Об'єктивна функція може бути невипуклою, і в цьому випадку ми часто просто зупиняємось у деяких локальних оптимах або седлових точках.

що цікаво, воно також карає правильно класифіковані випадки, якщо вони слабо класифіковані. Це дійсно дивний дизайн.

Я думаю, що таке дизайнерське рішення радить моделі не лише робити правильні прогнози, але й бути впевненими у своїх прогнозах. Якщо ми не хочемо, щоб коректно класифіковані випадки були покарані, ми можемо, наприклад, перенести втрату шарніру (синій) вліво на 1, щоб вони більше не отримували втрат. Але я вважаю, що це часто призводить до гіршого результату на практиці.

які ціни нам потрібно платити за допомогою різних "функцій втрати проксі-сервера", таких як втрати шарніру та логістичні втрати?

IMO, вибираючи різні функції втрат, ми вносимо різні припущення до моделі. Наприклад, втрата логістичної регресії (червона) передбачає розподіл Бернуллі, втрата MSE (зелена) передбачає шум Гаусса.


Слідуючи прикладу найменших квадратів та логістичної регресії в PRML, я додав втрату шарніру для порівняння. введіть тут опис зображення

Як показано на малюнку, втрата шарніру та логістична регресія / перехресна ентропія / лого-ймовірність / softplus мають дуже близькі результати, оскільки їх цільові функції близькі (малюнок нижче), тоді як MSE, як правило, більш чутливий до людей, що втратили люди. Втрата шарнірів не завжди має унікальне рішення, оскільки воно не є строго опуклим.

введіть тут опис зображення

Однак однією з важливих властивостей втрат шарніру є те, що точки даних, віддалені від межі рішення, нічого не сприяють втраті, рішення буде таким же, як вилучені точки.

Решта точок називаються векторами підтримки в контексті SVM. Тоді як SVM використовує термін регуляризатора, щоб забезпечити властивість максимальної маржі та унікальне рішення.


Дякую за відповідь. Чи можливо це створити кілька демонстрацій, щоб інтуїтивно показати вплив на різні втрати? Так само, як ми показуємо вплив регресії, використовуючи втрати в квадраті проти найменших абсолютних втрат.
Хайтао Ду

@ hxd1011 ласкаво просимо, я спробую додати кілька демонстрацій пізніше.
dontloo

2
Втрата шарніра опукла ...
Мустафа S Ейза

1
@ MustafaM.Eisa вірно, дякую, я мав на увазі не суворо опуклий ..
dontloo

@dontloo чудове моделювання! Дякую. Я також спробую пізніше завантажити декілька своїх симуляцій.
Хайтао Дю

6

Надіслати пізню відповідь, оскільки є дуже проста відповідь, про яку ще не було сказано.

які ціни нам потрібно платити за допомогою різних "функцій втрати проксі-сервера", таких як втрати шарніру та логістичні втрати?

При заміні неопуклих функцій 0-1 Втрати в опуклому сурогатної (наприклад , шарнірної втрати), ви на самому справі в даний час вирішення іншої проблеми , ніж той , який ви призначені для вирішення (який повинен звести до мінімуму кількості помилок класифікації). Таким чином, ви отримуєте обчислювальну простежуваність (проблема стає опуклою, це означає, що ви можете її ефективно вирішити, використовуючи інструменти опуклої оптимізації), але в загальному випадку насправді немає способу відновити помилку класифікатора, що мінімізує втрату "проксі" і похибка класифікатора, що мінімізує втрату 0-1 . Якщо ви справді піклувались, було мінімізувати кількість помилок, я стверджую, що це дійсно велика ціна.

D


1

В ідеалі ваша функція збитків повинна відображати фактичні збитки, понесені бізнесом. Наприклад, якщо ви класифікуєте пошкоджені товари, то втрата неправильної класифікації може бути такою:

  • маркування пошкоджених товарів, яких не було: втрачений прибуток від потенційного продажу
  • не маркування пошкоджених товарів, які були пошкоджені: вартість зворотної обробки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.