Наведені вище відповіді хороші.
Sk e w = n e ga t i v ee x a m p l e sp o s i t i v ee x a m p l e s
З незбалансованими даними AUC все ще дає значне значення близько 0,8. Однак він високий завдяки великій ПП, а не великій ТП (справжній позитивний).
Наприклад, наведений нижче приклад,
TP=155, FN=182
FP=84049, TN=34088
Отже, коли ви використовуєте AUC для вимірювання продуктивності класифікатора, проблема полягає в тому, що підвищення AUC насправді не відображає кращого класифікатора. Це лише побічна дія занадто багатьох негативних прикладів. Ви можете просто спробувати у вас набір даних.
Жβ= ( 1 + β2) ⋅ p r e c i s i o n ⋅ r e c a l l( β2⋅ p r e c i s i o n ) + r e c a l l
β
Потім мої пропозиції щодо незбалансованих даних схожі на цю публікацію . Ви також можете спробувати таблицю децилів, яка може бути побудована за допомогою пошуку "Класифікації двох та двох класифікацій та децилів". Тим часом я також вивчаю цю проблему і дам кращу міру.