AUC не порівнює класи реальні та прогнозовані один з одним. Він дивиться не на прогнозований клас, а на прогнозовану оцінку чи ймовірність. Ви можете зробити передбачення класу, застосувавши до цього бала межу, скажімо, кожен зразок, який отримав оцінку нижче 0,5, класифікується як негативний. Але РПЦ приходить до того, як це станеться. Це працює з оцінками / ймовірності класу.
Він бере ці результати і сортує всі зразки відповідно до цієї оцінки. Тепер, коли ви знайдете позитивний зразок, крива ROC робить крок вгору (вздовж осі y). Щоразу, коли ви знайдете негативний зразок, рухаєтесь праворуч (уздовж осі x). Якщо ця оцінка відрізняється для двох класів, позитивні вибірки виходять на перше місце (як правило). Це означає, що ви робите більше кроків вгору, ніж праворуч. Далі вниз по списку з’являться негативні зразки, тому ви рухаєтеся вліво. Коли ви пройдете весь список зразків, ви досягнете координати (1,1), що відповідає 100% позитивних та 100% негативних зразків.
Якщо оцінка ідеально відокремлює позитивну від негативної вибірки, ви рухаєтеся повністю від (x = 0, y = 0) до (1,0), а потім звідти до (1, 1). Отже, площа під кривою дорівнює 1.
Якщо ваш бал має однакове розподіл на позитивні та негативні вибірки, ймовірність знайти позитивну чи негативну вибірку в відсортованому списку рівні, і тому ймовірність переміщення вгору або вліво на кривій ROC дорівнює. Ось чому ви рухаєтесь по діагоналі, оскільки ви по суті рухаєтеся вгору і вліво, вгору і вліво і так далі ..., що дає значення AROC приблизно 0,5.
У випадку незбалансованого набору даних кроковий ступінь відрізняється. Отже, ви робите менші кроки зліва (якщо у вас більше негативних зразків). Ось чому оцінка більш-менш незалежна від дисбалансу.
Таким чином, за допомогою кривої ROC можна уявити, як розділяються ваші вибірки, і площа під кривою може бути дуже хорошою метрикою для вимірювання продуктивності алгоритму бінарної класифікації або будь-якої змінної, яка може бути використана для розділення класів.
На малюнку показані однакові розподіли з різними розмірами вибірки. Чорна зона показує, де можна очікувати ROC-кривих випадкових сумішей позитивних та негативних зразків.