Я щойно закінчив читати цю дискусію. Вони стверджують, що PR AUC кращий за RUC AUC на незбалансованому наборі даних.
Наприклад, у нас є 10 зразків тестових наборів даних. 9 зразків є позитивними та 1 - негативними. У нас є жахлива модель, яка прогнозує все позитивне. Таким чином, ми матимемо метрику, що TP = 9, FP = 1, TN = 0, FN = 0.
Тоді Точність = 0,9, Нагадаємо = 1,0. Точність та відкликання дуже високі, але у нас поганий класифікатор.
З іншого боку, TPR = TP / (TP + FN) = 1,0, FPR = FP / (FP + TN) = 1,0. Оскільки FPR дуже високий, ми можемо визначити, що це не гарний класифікатор.
Зрозуміло, що ROC кращий за PR на незбалансованих наборах даних. Хтось може пояснити, чому PR краще?