Порівняйте класифікатори на основі AUROC чи точності?

11

У мене є проблема бінарної класифікації, і я експериментую на ній з різними класифікаторами: я хочу порівняти класифікатори. який з них є кращим показником AUC або точності? І чому?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %

machine-learning classification auc

— Сина
джерело

13

Правильно класифікована пропорція - це неправильне правило балів, тобто воно оптимізоване помилковою моделлю. Я використовував би правильне квадратичне правило, відоме як оцінка Brier, або ймовірність узгодження (область під кривою ROC у двійковому випадку ). Випадковий ліс працює краще, ніж SVM у вашому випадку. $Y$

— Френк Харрелл
джерело

i

$i$

o_{i} \in {0, 1}

$o_i \in \{0,1\}$

{\hat{f}}_{i}

$\hat{f}_i$

B = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{f}}_{i} - o_{i})^{2}

$B=\frac{1}{n} \sum_{i=1}^n (\hat{f}_i - o_i)^2$

o_{i}

$o_i$

{\hat{f}}_{i}

$\hat{f}_i$

{\hat{y}}_{i}

$\hat y_i$

= + 1

$= +1$

- 1

$-1$

{\hat{y}}_{i} = s i g n (g (y_{i}, x_{i}))

$\hat y_i = sign(g(y_i,x_i))$

g (y_{i}, x_{i})

$g(y_i,x_i)$

g (y_{i}, x_{i})

$g(y_i,x_i)$

{\hat{f}}_{i} = P (Y = 1 | x_{i}) = \frac{1}{1 + e x p (A \times g (y_{i}, x_{i}) + B)}

$\hat f_i = P(Y=1|x_i)=\frac{1}{1+exp(A \times g(y_i,x_i) + B)}$

A

$A$

B

$B$

8

Я думаю, що ви, безумовно, повинні вивчити більше показників, ніж просто AUC та точність.

Точність (разом з чутливістю та специфічністю) - це дуже проста, але упереджена метрика, яка змушує вас дивитися на абсолютний результат передбачення і не відкриває для затвердження ймовірностей класів чи ранжування. Він також не враховує сукупність, яка закликає до неправильного трактування як моделі, що дає 95% точність для населення з 95% шансом виправити випадковість, насправді не є хорошою моделлю, навіть якщо точність висока.

AUC - це хороший показник для встановлення точності моделі, незалежної від ймовірностей класу населення. Однак це не скаже вам нічого про те, наскільки хороші оцінки ймовірності насправді. Ви можете отримати високий AUC, але все ще маєте дуже перекошені оцінки ймовірностей. Цей показник більш дискримінаційний, ніж точність, і, безумовно, дасть вам кращі моделі при використанні в поєднанні з яким-небудь правильним правилом балів, наприклад, оцінка Brier, як згадується в іншому дописі.

Тут ви можете отримати більш офіційний доказ, хоча цей документ є цілком теоретичним: AUC: статистично несуперечливий і більш дискримінаційний захід, ніж точність

Однак є маса хороших показників. Функції втрат для оцінки й класифікації ймовірностей бінарного класу: Структура та додатки - це хороший документ, що досліджує правильні правила балів, такі як оцінка Brier.

Інший цікавий документ із показниками для підтвердження продуктивності моделі - Оцінка: від точності, відкликання та вимірювання F до ROC, інформованості, помітності та кореляції з використанням інших показників хорошої ефективності, таких як інформованість.

Підводячи підсумок, я рекомендую переглянути показник AUC / Gini та Brier, щоб визначити ефективність вашої моделі, але залежно від цілі вашої моделі інші показники можуть краще відповідати вашій проблемі.

— поки
джерело

Посилання для Оцінювання: від точності, відкликання та вимірювання F до РПЦ, поінформованість, помітність та кореляція мертві

— vonjd

i

$i$

o_{i} \in {0, 1}

$o_i \in \{0,1\}$

{\hat{f}}_{i}

$\hat{f}_i$

B = \frac{1}{n} \sum_{i = 1}^{n} ({\hat{f}}_{i} - o_{i})^{2}

$B=\frac{1}{n} \sum_{i=1}^n (\hat{f}_i - o_i)^2$

o_{i}

$o_i$

{\hat{f}}_{i}

$\hat{f}_i$

Ніяка підбірка не є чудовою для методів, які дають лише результат, а не ймовірність. Нітер є аук, хоча це підкаже вам, наскільки добре ви оцінюєте свої прогнози. Маючи лише результати, ви отримаєте лише крапку в просторі ROC, отже, вам дана площа під кривою буде трикутником. Але це все одно дасть вам число і так підбадьорить все, хоча це більш-менш перетвориться на 0-1 втрату. Якщо у вас є лише результати, я пропоную переглянути Точність, Відкликання та Капен Коена, які є метриками, розробленими, коли у вас є результати.

— поки