Криві ROC vs точності та відкликання


159

Я розумію формальні відмінності між ними, що я хочу знати, коли важливіше використовувати одне проти іншого.

  • Чи завжди вони забезпечують додаткове розуміння продуктивності даної системи класифікації / виявлення?
  • Коли розумно надати їх обом, скажімо, в папері? замість лише одного?
  • Чи існують альтернативні (можливо, більш сучасні) дескриптори, які відображають відповідні аспекти як ROC, так і точності відкликання для системи класифікації?

Мене цікавлять аргументи як для бінарних, так і для багатокласних випадків (наприклад, як один-проти-всіх).


7
Цей документ просто повинен з’являтися в контексті: biostat.wisc.edu/~page/rocpr.pdf

2
Я міг би використати це для "штекера", щоб згадати тут свою власну тезу ... У Leitner (2012) я запропонував метрику "F-вимірювана середня точність" (FAP) (див. Стор. 65) як гармонічне середнє значення F- вимірювання та середня точність. Тобто, комбінація встановленої метрики оцінювання з метрикою ранжированого оцінювання. У дипломній роботі я показав, що максимізація балу FAP на навчальному наборі може бути використана для визначення найкращої межі для розмежування інакше необмеженої задачі пошуку інформації (з використанням 100-ти бійок BioCreative!).
fnl

1
Ось ще одна гарна дискусія щодо кривої AUC-ROC та PR на незбалансованому наборі даних. Він має той самий висновок, що й дзимча. Якщо ви більше піклуєтеся про рідкісний випадок, вам слід скористатися піаром.
YC

Відповіді:


207

Ключова відмінність полягає в тому, що криві ROC будуть однаковими, незалежно від базової ймовірності, але криві PR можуть бути кориснішими на практиці при проблемах типу голки в сіні або проблеми, коли "позитивний" клас цікавіший, ніж негативний клас.

Щоб показати це, спочатку почнемо з дуже приємного способу визначення точності, згадування та конкретності. Припустимо , у вас є «позитивний» клас під назвою 1 і «негативний» клас під назвою 0. Y ваша оцінка істинного класу етикетки Y . Тоді: Y^Y Головне,зазначити, що чутливість / запам'ятовуваність і специфічність, які складають криву ROC, є ймовірністюобумовлена істинної наклейка класу. Тому вони будуть однаковими незалежно від того, що такеP(Y=1). Точність - це ймовірність, обумовленавашою оцінкою мітки класу,і таким чином буде змінюватися, якщо ви спробуєте свій класифікатор у різних групах населення з різною базовою лінієюP(Y=1)

Точність=П(Y=1|Y^=1)Нагадаємо=Чутливість=П(Y^=1|Y=1)Специфіка=П(Y^=0|Y=0)
П(Y=1)П(Y=1). Однак це може бути корисніше на практиці, якщо ви дбаєте лише про одну популяцію з відомою фоновою ймовірністю, а "позитивний" клас набагато цікавіший, ніж "негативний" клас. (Точність IIRC популярна в області пошуку документів, де це так.) Це відбувається тому, що вона прямо відповідає на питання: "Яка ймовірність того, що це справжній хіт, якщо мій класифікатор каже, що це так?".

Цікаво, що за теоремою Байєса ви можете розробити випадки, коли специфіка може бути дуже високою, а точність - дуже низькою одночасно. Все, що вам потрібно зробити, це припустити, що дуже близький до нуля. На практиці я розробив декілька класифікаторів із такою характеристикою, яка була характерною для пошуку голок у сінах послідовності ДНК.П(Y=1)

ІМХО під час написання документу слід надати будь-яку криву відповіді на питання, на яке ви хочете відповісти (або те, що є більш сприятливим для вашого методу, якщо ви цинічні). Якщо ваше запитання: "Наскільки значущим є позитивний результат від мого класифікатора, враховуючи базові ймовірності моєї проблеми ?", Використовуйте криву PR. Якщо ваше питання полягає в тому, "Наскільки добре можна очікувати, що цей класифікатор може працювати в цілому при різних ймовірностях базової лінії ?", Перейдіть з кривою ROC.


9
це було фантастичне пояснення!
Амеліо Васкес-Рейна

4
+1, чудове розуміння імовірнісних інтерпретацій Точності, Відкликання та Конкретності.
Жубарб

1
Яка відповідь! Хотілося б, щоб я міг потрапити на голосування двічі
Хлопець Лондона

6
Про всяк випадок, коли це було не зрозуміло з мого попереднього коментаря: Ця відповідь неправильна , як і криві ROC, що використовують специфіку. Дивіться, наприклад, Вступ до аналізу ROC - який також натякає на їх недолік, як це зафіксовано у моїй відповіді: "У багатьох реальних сферах домінує велика кількість негативних випадків, тому продуктивність у крайній лівій частині графіка ROC стає більш цікавим."
fnl

2
+0,5 @fnl. Хоча явно не помиляюсь, я вважаю, що у відповіді відсутня точка питання; імовірнісна інтерпретація дуже вітається, але вона є спірною щодо основного питання. Крім того, я не можу привести загального реалістичного прикладу, коли питання: « Наскільки значущим є позитивний результат мого класифікатора з огляду на базові ймовірності моєї проблеми? » Не застосовується. " Загалом " перспектива ROC-AUC просто надто нечітка. (Само собою зрозуміло, що жоден не повинен використовуватися за номіналом для побудови кінцевої моделі)
usεr11852

26

Ось висновки з статті Davis & Goadrich, що пояснює взаємозв'язок між ROC та PR-простором. Вони відповідають на перші два питання:

По-перше, для будь-якого набору даних крива ROC і крива PR для заданого алгоритму містять однакові точки. Ця еквівалентність призводить до дивовижної теореми про те, що крива домінує в просторі ROC тоді і лише тоді, коли вона домінує в просторі PR. По-друге, як наслідок теореми ми показуємо існування простору PR, аналогового опуклому корпусу в просторі ROC, який ми називаємо досяжною кривою PR. Примітно, що при побудові досяжної кривої PR відкидають абсолютно ті самі точки, опущені опуклим корпусом у просторі ROC. Отже, ми можемо ефективно обчислити досяжну криву PR. [...] Нарешті, ми показуємо, що алгоритм, який оптимізує область під кривою ROC, не гарантовано оптимізує область під кривою PR.

Іншими словами, в принципі ROC і PR однаково підходять для порівняння результатів. Але на прикладі 20-ти хітів і пропусків 1980 року вони показують, що відмінності можуть бути досить різкими, як показано на рисунках 11 і 12.

Фігури 11 і 12 з Девіса і Годріха

Результат / крива (I) описує результат, коли 10 з 20 звернень перебувають у першій десятці рангів, а решта 10 звернень рівномірно розподіляються по перших 1500 рангах. Resut (II) описує результат, коли 20 хітів рівномірно розподіляються за першими 500 (з 2000) рядів. Отже, у випадках, коли результат "форми" типу (I) є кращим, це перевага чітко відрізняється в PR-просторі, тоді як AUC ROC двох результатів майже рівний.


1
Ці графіки не відображають (дискретизують) описану ситуацію, яка б показувала кроки в кривих ROC кожного разу, коли трапляється звернення (після перших 10 для кривої I). ROCCH виглядатиме так з опуклим корпусом. Точно так само, як і для PR, Precision зіткнув би надріз кожного разу, коли було виявлено потрапляння, а потім розпався під час промаху, починаючи з (0,0) за нічого прогнозованого (вище порогового значення), якщо в цій точці було визначено значення 0 (0 / 0) - крива II, як показано, є максимальною точністю, а не точністю для кожного порогового (і, отже, нагадування) рівня.
David MW Powers

1
Це насправді фіг.7 у знайденій вами версії статті. Папір фактично інтерполює криву PR, використовуючи криву ROC. Зауважимо, що результат домінування спирається на припущення, що відкликання не є нульовим, що не стосується, поки не буде знайдено перший удар, а точність (як визначено у статті) до цього часу формально не визначена (0/0).
David MW Powers

1
Так, проблема полягає у відсутності правильної дискретизації (хоча подібний сюжет може виникнути, якщо усереднюватись за великою кількістю пробіжок). Однак результат статті є менш значущим, ніж ви могли очікувати, через проблеми з невизначеністю, і не настільки суттєвий, як ви очікували, коли ви просто зрозумієте результат з точки зору масштабування. Я б ніколи не використовував PR, але іноді я міг би масштабуватись у ROC або рівнозначно використовувати PN.
David MW Powers

1
По-перше, графіки на рис. 7 (11 проти 12) не мають значення - вони не є ступінчастими графами для навченої системи (оскільки позитивні приклади перевищують пороговий поріг), але відповідають граничним середнім значенням, оскільки кількість РІЗНИХ систем наближається до нескінченності. Друга точність та відкликання були розроблені для пошуку в Інтернеті, і обидва цілком ПЕРЕГЛЯДУвали (передбачається велике) кількість справжніх негативів (Prec = TP / PP і Rec = TP / RP). По-третє, графік точності та відкликання насправді просто показує зворотну зміщення (1 / PP) проти взаємної поширеності (1 / RP) для певного рівня ТП (якщо ви зупинили веб-пошук на TP правильних хітах).
David MW Powers

5
Гаразд, тому, очистивши всі мої сумніви, я вважаю, що потрібно порадити читачам, що я вважаю, що відповідь @DavidMWPowers слід віддавати перевагу моїй.
fnl

12

Існує багато непорозумінь щодо оцінки. Частина цього полягає в підході машинного навчання, намагаючись оптимізувати алгоритми наборів даних, не маючи реального інтересу до даних.

У медичному контексті мова йде про реальні результати світу, наприклад, скільки людей ви рятуєте від вмирання, наприклад. У медичному контексті Чутливість (TPR) використовується для того, щоб побачити, скільки позитивних випадків правильно підібрано (мінімізуючи частку пропущених як помилкових негативів = FNR), тоді як специфічність (TNR) використовується, щоб побачити, скільки негативних випадків є правильними ліквідовано (мінімізація пропорції, виявленої як хибнопозитивні = FPR). Деякі захворювання мають поширеність один на мільйон. Таким чином, якщо ви завжди прогнозуєте негатив, у вас є точність 0,999999 - це досягається простим студентом ZeroR, який просто прогнозує максимальний клас. Якщо ми розглядаємо «Нагадування» та «Точність» для прогнозування того, що ви не маєте захворювань, то для ZeroR у нас є Recall = 1 та Precision = 0,999999. Звичайно, якщо ви перевернете + ве та -ве і спробуєте передбачити, що у людини захворювання із ZeroR, ви отримаєте Recall = 0 та Precision = undef (як ви навіть не робили позитивного прогнозу, але часто люди визначають точність як 0 у цьому випадок). Зауважте, що Recall (+ ve Recall) та Inverse Recall (-ve Recall), а також пов'язані TPR, FPR, TNR & FNR завжди визначаються, тому що ми вирішуємо лише проблему, бо знаємо, що слід виділити два класи, і ми навмисно надаємо приклади кожного.

Зверніть увагу на величезну різницю між відсутнім раком у медичному контексті (хтось помирає, і вас подають до суду) проти того, щоб пропустити папір у веб-пошуку (хороший шанс, що хтось із інших посилається на нього, якщо це важливо). В обох випадках ці помилки характеризуються як помилкові негативи, порівняно з великою сукупністю негативів. У випадку з веб-пошуком ми автоматично отримаємо велику кількість справжніх негативів просто тому, що ми показуємо лише невелику кількість результатів (наприклад, 10 або 100), і їх не відображати насправді не слід сприймати як негативне передбачення (це може бути 101 ), тоді як у випадку тесту на рак ми маємо результат для кожної людини, і на відміну від веб-пошуку ми активно контролюємо помилковий негативний рівень (показник).

Таким чином, ROC вивчає компроміс між справжніми позитивними (проти хибних негативів як часткою реальних позитивних) та помилковими позитивними (проти справжніх негативів як часткою реальних негативів). Це еквівалентно порівнянню чутливості (+ пригадування) та специфічності (-ве нагадування). Існує також графік PN, який виглядає так само, коли ми побудуємо TP проти FP, а не TPR проти FPR - але, оскільки ми робимо площу ділянки, єдиною різницею є числа, які ми ставимо на шкалу. Вони пов'язані між собою константами TPR = TP / RP, FPR = TP / RN, де RP = TP + FN і RN = FN + FP - кількість реальних позитивних та реальних негативів у наборі даних і, навпаки, зміщення PP = TP + FP і PN = TN + FN - це кількість разів, коли ми прогнозуємо позитивне чи прогнозоване негативне. Зауважимо, що ми називаємо rp = RP / N і rn = RN / N поширеністю позитивних респ. від'ємне і pp = PP / N і rp = RP / N ухил до позитивного респ.

Якщо ми підсумовуємо або середню чутливість та специфічність, або дивимось на область під кривою компромісу (еквівалентну ROC, що просто перевертає вісь x), ми отримуємо той же результат, якщо обмінюємось, який клас є + ve та + ve. Це НЕ справедливо для точності та нагадування (як показано вище з прогнозуванням захворювання ZeroR). Ця свавілля є головним недоліком точності, згадування та їх середніх значень (будь то арифметичні, геометричні чи гармонічні) та компромісних графіків.

PR, PN, ROC, LIFT та інші діаграми побудовані у вигляді змін параметрів системи. Це класично графічні точки для кожної окремої системи, що навчається, часто із збільшенням або зменшенням порогу для зміни точки, в якій екземпляр класифікується як позитивний проти мінус.

Іноді нанесені точки можуть бути середніми (змінюючи параметри / пороги / алгоритми) набори систем, що навчаються однаково (але з використанням різних випадкових чисел чи вибірки чи впорядкування). Це теоретичні конструкції, які розповідають нам про середню поведінку систем, а не про їхню ефективність щодо певної проблеми. Діаграми компромісів призначені для того, щоб допомогти нам вибрати правильну операційну точку для конкретної програми (набір даних та підхід), і саме тут ROC отримує свою назву (Операційні характеристики приймача мають на меті максимально отримати отриману інформацію в сенсі обізнаності).

Розглянемо, проти чого може бути запроваджено Recall, TPR або TP.

TP проти FP (PN) - виглядає так само, як ROC-сюжет, просто з різними цифрами

TPR проти FPR (ROC) - TPR проти FPR з AUC не змінюється, якщо +/- перевернуто.

TPR проти TNR (alt ROC) - дзеркальне зображення ROC як TNR = 1-FPR (TN + FP = RN)

TP проти PP (LIFT) - X дюймів для позитивних та негативних прикладів (нелінійне розтягнення)

TPR vs pp (alt LIFT) - виглядає так само, як LIFT, лише з різними числами

TP vs 1 / PP - дуже схожий на LIFT (але перевернутий з нелінійною розтяжкою)

TPR vs 1 / PP - виглядає так само, як TP проти 1 / PP (різні числа на осі y)

TP проти TP / PP - аналогічно, але з розширенням осі x (TP = X -> TP = X * TP)

TPR проти TP / PP - виглядає однаково, але з різними номерами на осях

Останній - Recall vs Precision!

Зауважте, що для цих графіків будь-які криві, що домінують над іншими кривими (кращі або принаймні високі у всіх точках), все ще будуть домінувати після цих перетворень. Оскільки домінування означає «принаймні настільки ж високе» у кожній точці, то вища крива також має «принаймні настільки ж високу» область під кривою (AUC), оскільки вона включає також область між кривими. Зворотне не відповідає дійсності: якщо криві перетинаються, на відміну від дотику, домінування немає, але одна AUC все ж може бути більшою, ніж інша.

Усі перетворення - це відображення та / або масштабування різними (нелінійними) способами до певної частини графіка ROC або PN. Однак тільки ROC має приємну інтерпретацію Площі під кривою (ймовірність того, що позитив класифікується вище за мінус - статистика Манна-Вітні U) та Відстань вище кривої (ймовірність прийняття обґрунтованого рішення, а не здогадується - Юден Дж статистика як дихотомічна форма неінформованості).

Як правило, немає необхідності використовувати криву компромісу PR, і ви можете просто збільшити масштаб кривої ROC, якщо потрібні деталі. Крива ROC має унікальну властивість, що діагональ (TPR = FPR) являє собою шанс, що Відстань над лінією шансу (DAC) являє собою Інформаційність або ймовірність прийнятого рішення, а Площа під кривою (AUC) являє собою ранжированість або ймовірність правильного парного ранжирування. Ці результати не відповідають кривій PR, і AUC стає спотвореним для більш високого відкликання або TPR, як пояснено вище. PR АУК бути більше нічого НЕ мається на увазі, що AUC ROC є більшим і, отже, не передбачає підвищення ранжированості (вірогідність правильного прогнозування +/- пар, зокрема, як часто він прогнозує + ves вище -ves) і не передбачає підвищення інформативності (вірогідність усвідомленого прогнозу, а не випадкова здогадка - саме те, як часто він знає, що робить, коли робить передбачення).

Вибачте - графіків немає! Якщо хтось хоче додати графіки для ілюстрації вищевказаних перетворень, це було б чудово! У мене є чимало в моїх працях про ROC, LIFT, BIRD, Kappa, F-міру, Інформованість тощо, але вони представлені не зовсім таким чином, хоча є ілюстрації ROC vs LIFT vs BIRD vs RP у https : //arxiv.org/pdf/1505.00401.pdf

ОНОВЛЕННЯ: Щоб уникнути спроб дати повні пояснення в надмірних відповідях чи коментарях, ось деякі мої статті "розкривають" проблему з компромісом Precision vs Recall inc. F1, виведення Інформованості, а потім "вивчення" стосунків з ROC, Kappa, Значенням, DeltaP, AUC тощо. Це проблема, яку один із моїх студентів натрапив на 20 років тому (Entwisle), і багато інших з тих пір виявили, що приклад реального світу там, де були емпіричні докази того, що підхід R / P / F / A направляв учня НЕПРАВНО, а Інформованість (або Каппа або Кореляція у відповідних випадках) надсилала їх ПРАВИЛЬНО - тепер через десятки полів. Існує також багато хороших та релевантних робіт інших авторів про Kappa та ROC, але коли ви використовуєте Kappas проти ROC AUC проти ROC Height (Informedness або Youden ') s J) з'ясовано в списках робіт за 2012 рік (багато важливих робіт інших людей цитуються в них). Документ Bookmaker 2003 року вперше отримує формулу Informedness для багатокласового випадку. У статті 2013 випущена багатокласова версія Adaboost, пристосована для оптимізації інформованості (із посиланнями на модифіковану Weka, яка розміщує та виконує її).

Список літератури

1998 р. Сучасне використання статистики в оцінці НЛП-аналізаторів. J Entwisle, DMW Powers - Матеріали спільних конференцій з нових методів обробки мови: 215-224 https://dl.acm.org/citation.cfm?id=1603935 Цитується 15

Пригадування та точність 2003 року проти "Букмекера". Повноваження DMW - Міжнародна конференція з когнітивної науки: 529-534 http://dspace2.flinders.edu.au/xmlui/handle/2328/27159 Цитується 46

Оцінка 2011 року: від точності, відкликання та вимірювання F до ROC, інформованості, помітності та кореляції. Повноваження DMW - Journal of Machine Learning Technology 2 (1): 37-63. http://dspace2.flinders.edu.au/xmlui/handle/2328/27165 Посилається на 1749 рік

2012 Проблема з kappa. Повноваження DMW - Матеріали 13-ї конференції європейської АСЛ: 345-355 https://dl.acm.org/citation.cfm?id=2380859 Цитовано 63

2012 р. ROC-ConCert: Вимірювання послідовності та визначеності на основі ROC. Повноваження DMW - Весняний конгрес з техніки та технологій (S-CET) 2: 238-241 http://www.academia.edu/download/31939951/201203-SCET30795-ROC-ConCert-PID1124774.pdf Цитується за 5

2013 ADABOOK & MULTIBOOK: Адаптивний прискорення з виправленням шансів. Повноваження DMW - Міжнародна конференція ICINCO з інформатики в галузі управління, автоматики та робототехніки http://www.academia.edu/download/31947210/201309-AdaBook-ICINCO-SCITE-Harvard-2upcor_poster.pdf

https://www.dropbox.com/s/artzz1l3vozb6c4/weka.jar (goes into Java Class Path)
https://www.dropbox.com/s/dqws9ixew3egraj/wekagui   (GUI start script for Unix)
https://www.dropbox.com/s/4j3fwx997kq2xcq/wekagui.bat  (GUI shortcut on Windows)

Цитується 4


> "область під кривою представляє ранжированість або ймовірність правильного попарного ранжирування". Я думаю, саме там ми не погоджуємось - ROC лише демонструє якість ранжування в сюжеті . Однак у AUC PR - це єдине число, яке одразу підказує мені, який рейтинг кращий (тобто, результат I є кращим порівняно з результатом II). AUC ROC не має цього властивості.
fnl

Результат домінування, який наводить fnl, означає, що КОГО ВИЗНАЧЕНО, Якщо одна крива домінує в ROC, вона має PR та навпаки, і це означає, що вона також має більшу площу в обох, і, отже, немає якісної різниці між ROC та PR AUC. Цитата про ранжированість (Mann-Whitney U) - це добре встановлена ​​кількісна ймовірність повторного результату (частина тесту на значимість), яку рекомендували цілком незалежно від ROC, але пізніше було встановлено AUC ROC. Аналогічно, Informedness спочатку визначався незалежно, а пізніше було доведено, що відповідає висоті робочої точки ROC. PR не має таких результатів.
David MW Powers

1
Як я вже говорив, це лише питання масштабування в умовах домінування ("набагато більше", оскільки множиться на велику кількість, як я детально пояснюю), але в умовах не домінування PR AUC вводить в оману, а AUC ROC - це один що має відповідну ймовірнісну інтерпретацію (Mann-Whitney U або Rankedness), з єдиним випадком операційної точки, що відповідає Джині (або еквівалентно J або Informedness, Юден після масштабування).
David MW Powers

1
Якщо розглядати AUC єдиної робочої точки (SOC) для простоти, то коефіцієнт Джині = AUC = (TP / RP + TN / RN) / 2 та Informedness = Youden J = TP / RP + TN / RN - 1 = Чутливість + Специфічність -1 = TPR + TNF -1 = Recall + Inverse Recall - 1 і т. Д. Максимізація або рівнозначна, але остання - це ймовірність усвідомленого рішення (навмисно неправильне, якщо -ve). Якщо RN і TN обидва переходять у нескінченність з TN >> FP, то TN / RN -> 1 і скасовує так Informedness = Згадайте у вказаних вами випадках. Якщо натомість величезним класом є RP та TP >> FN, то TP / RP -> 1 та Informedness = Зворотний виклик. Див. Реф.
David MW Powers

1
Це дуже корисна відповідь Девід Пауерс. Але пробачте моє невігластво, коли ви говорите: "Взагалі, не потрібно використовувати криву PR-компромісу, і ви можете просто збільшити масштаб кривої ROC, якщо потрібна детальна інформація". докладно про те, що ти маєш на увазі? Чи означає це, що я можу якось використовувати криву ROC у сильно незбалансованому випадку? "Якщо надати FPR або TPR більшу вагу, ви отримаєте бал AUC ROC з більшими різницями результатів, відмінний бал!" Як мені це зробити з моєю ROC?
Крістофер Джон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.