Криві ROC для незбалансованих наборів даних


10

Розглянемо вхідну матрицю та двійковий вихід .Xy

Поширений спосіб вимірювання продуктивності класифікатора - використання кривих ROC.

У діаграмі ROC діагональ - це результат, який був би отриманий від випадкового класифікатора. У разі незбалансованого виводу продуктивність випадкового класифікатора можна покращити, вибравши або з різними ймовірностями.y01

Як можна представити продуктивність такого класифікатора на графіку кривої ROC? Я думаю, це повинна бути пряма лінія з іншим кутом, а не діагональ більше?

Приклад кривої ROC


2
Ви можете замість цього спробувати криву точності відкликання: "Графік точності відкликання є більш інформативним, ніж графік ROC при оцінці бінарних класифікаторів на незбалансованих наборах даних", ncbi.nlm.nih.gov/pmc/articles/PMC4349800 , ймовірно більше доступний веб-сайт, створений авторами статті, classeval.wordpress.com/simulation-analysis/…
zyxue

Відповіді:


16

Криві ROC нечутливі до балансу класів. Пряма лінія, яку ви отримаєте для випадкового класифікатора, вже є результатом використання різних ймовірностей отримання позитиву (0 приводить вас до (0, 0), а 1 приводить вас до (1, 1) з будь-яким діапазоном між ними).

У незбалансованій обстановці нічого не змінюється.


1
Мені корисно розглянути значення області під кривою, щоб зрозуміти, чому діагональ не змінюється. AUC можна інтерпретувати як ймовірність того, що випадково обраний позитивний приклад матиме більш високий бал, ніж випадково обраний негативний приклад. 1 . Це робить мені зрозумілішим, чому дисбаланс класів - це не проблема.
JBecker
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.