Вибір між функціями втрат для двійкової класифікації


18

Я працюю в проблемній області, де люди часто повідомляють про ROC-AUC або AveP (середня точність). Однак нещодавно я знайшов папери, які оптимізують втрату журналу , а інші повідомляють про втрату шарніру .

Хоча я розумію, як обчислюються ці показники, мені важко зрозуміти компроміси між ними і що добре для чого саме.

Що стосується ROC-AUC проти Precision-Recall, цей потік обговорює, як максимізація ROC-AUC може розглядатися як використання критеріїв оптимізації втрат, що карає "ранжування справжнього негативу принаймні такою ж великою, як істинна позитивна" (припускаючи, що вище бали відповідають позитивним). Крім того, цей інший потік також надає корисну дискусію про ROC-AUC на відміну від показників Precision-Recall .

Однак для яких типів проблем перевагу втрат журналу буде, наприклад, ROC-AUC , AveP або втрата шарніра ? Найголовніше, які типи питань слід задати проблемі, вибираючи між цими функціями втрат для двійкової класифікації?

Відповіді:


8

Сучасна довідка з цього питання є [1]. По суті, це показує, що всі вказані вами функції втрат збігаються до класифікатора Байєса зі швидкими темпами.

Вибір між цими для кінцевих зразків може бути зумовлений кількома різними аргументами:

  1. Якщо ви хочете відновити ймовірності подій (і не тільки класифікацій), то логічним кандидатом є логістична втрата журналу або будь-яка інша узагальнена лінійна модель (регрес Пробіта, регресія додаткового журналу, журнал, ...).
  2. Якщо ви орієнтуєтесь лише на класифікацію, SVM може бути кращим вибором, оскільки він орієнтований лише на спостереження за класифікацією та ігнорує віддалене спостереження, тим самим зменшуючи вплив правдивості прийнятої лінійної моделі.
  3. Якщо у вас мало спостережень, то перевага в 2 може бути недоліком.
  4. Можливо, є обчислювальні відмінності: як у заявленій задачі оптимізації, так і в конкретній реалізації, яку ви використовуєте.
  5. Підсумок - ви можете просто спробувати їх усіх і вибрати найкращого виконавця.

[1] Бартлетт, Пітер Л, Майкл I Джордан та Джон Д МакОліфф. "Опуклість, класифікація та межі ризику". Журнал Американської статистичної асоціації 101, вип. 473 (березень 2006 р.): 138–56. doi: 10.1198 / 016214505000000907.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.