Порівняння двох моделей, коли криві ROC перетинаються одна з одною


13

Однією загальною мірою, яка використовується для порівняння двох або більше моделей класифікації, є використання площі під кривою ROC (AUC) як спосіб опосередкованої оцінки їх ефективності. У цьому випадку модель з більшою AUC зазвичай трактується як краща, ніж модель з меншою AUC. Але, за даними Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ ), коли обидві криві перетинаються одна з одною, таке порівняння вже не є дійсним. Чому так?

Наприклад, що можна встановити про моделі A, B і C на основі кривих ROC та AUC нижче?

введіть тут опис зображення

Відповіді:


19

РПЦ крива візуалізує TPR і FPR для всіх можливих порогів .

  • Якщо ви побудуєте дві криві ROC "A" і "B", і вони не перетинаються одна з одною, то один із ваших класифікаторів очевидно працює краще, оскільки для всіх можливих значень FPR ви отримуєте більш високий TPR. Очевидно, площа під РПЦ також буде більшою.

  • Тепер, якщо вони перетинаються один з одним, то є точка, коли FPR і TPR однакові для обох кривих "A" і "B" . Ви більше не можете сказати, що одна крива ROC працює краще, оскільки зараз залежить від того, який компроміс ви віддаєте перевагу. Ви хочете високої точності / низького відкликання або низької точності / високого відкликання ?

Приклад: Якщо один класифікатор працює набагато краще на FPR 0,2, але важливо досягти високого Recall , то він добре працює на порозі, який вас не цікавить.

Про криві ROC у вашому графіку: Ви можете легко сказати, що "A" працює набагато краще, навіть не знаючи, чого ви хочете досягти. Як тільки фіолетова крива перетинає інші, вона перетинає їх знову. Вас, мабуть, не цікавить ця невелика частина , де «B» і «C» працюють трохи краще .

На наступному графіку ви бачите дві криві ROC, які також перетинаються. Тут ви не можете сказати, який із них кращий, оскільки вони як би доповнюють один одного .

Перетинання кривих ROC

Зауважте, що наприкінці дня ви зацікавлені вибрати один поріг для вашої класифікації, і AUC дає лише оцінку ефективності моделі в цілому .


Тільки для підтвердження, на моєму прикладі, якщо я вибираю дуже високе значення відсікання, де точність велика, модель A буде випереджати B і C з хорошою маржею?
Еду

Як ви знаєте, де велика точність? Це ROC, а не крива точності нагадування. Для точності ви перевіряєте вірогідність справжніх позитивних, враховуючи, що ваш класифікатор сказав Позитив.
Лаксан Натан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.