Як визначити якість багатокласового класифікатора

Дано

набір даних з екземплярами разом з класами, де кожен екземпляр належить саме одному класу $x_i$ $N$ $x_i$ $y_i$
багатокласовий класифікатор

Після навчання та тестування я в основному маю таблицю з справжнім класом $y_i$ та передбачуваним класом $a_i$ для кожного екземпляра $x_i$ в тестовому наборі. Отже, для кожного екземпляра я маю відповідність ( $y_i= a_i$ ) або промах ( ). $y_i\neq a_i$

Як я можу оцінити якість матчу? Проблема полягає в тому, що деякі класи можуть мати багато членів, тобто багато примірників належать до нього. Очевидно, якщо 50% усіх точок даних належать до одного класу, а мій остаточний класифікатор загалом на 50% правильний, я нічого не отримав. Я міг би так само добре зробити тривіальний класифікатор, який виводить цей найбільший клас незалежно від того, який вхід є.

Чи існує стандартний метод оцінювання якості класифікатора на основі відомих результатів тестового набору збігів та звернень для кожного класу? Можливо, навіть важливо розрізняти коефіцієнти відповідності для кожного конкретного класу?

Найпростіший підхід, який я можу придумати, - це виключити правильні відповідники найбільшого класу. Що ще?

machine-learning classification multi-class

— Геренюк
джерело

Я не впевнений, чи правильно я розумію питання. Чи знаєте ви матрицю плутанини та похідні заходи ? Це відповідь на ваше запитання? Або ви посилаєтесь на щось складніше?

— steffen

Я думаю, що це джерело моєї плутанини: У першому абзаці ви заявляєте .. де yi справжні класи та ... : Ви маєте на увазі, що екземпляр

може належати / має більше одного класу? Або кожен

належить / має рівно один клас? Ви можете, будь ласка, уточнити?

x_{i}

$x_i$

x_{i}

$x_i$

— steffen

@steffen: Я бачив матрицю плутанини. У моєму конкретному випадку я маю 4 класи. Тож я не впевнений, які похідні заходи можуть бути використані і мали б сенс. Кожен

належить лише одному класу. Однак існує більше двох можливих класів

x_{i}

$x_i$

i \in [1, \dots, N]

$i\in [1,\cdots,N]$

— Геренюк

@steffen Ці похідні заходи в першу чергу застосовні до двійкової класифікації, тоді як це питання явно стосується більш ніж двох класів. Потім необхідне модифіковане розуміння таких термінів, як "справжній позитив".

— Майкл МакГоуан

@MichaelMcGowan Я попросив ОП роз'яснити, а потім здійснив редагування, щоб чітко відобразити проблему багатокласовості, що не було очевидним перед редагуванням (IMHO).

— steffen

Відповіді:

Як і двійкова класифікація, ви можете використовувати емпіричний показник помилок для оцінки якості вашого класифікатора. Нехай - класифікатор, а та - відповідно приклад у вашій базі даних та її класі. $g$ $x_i$ $y_i$ Як ви вже говорили, коли класи не збалансовані, базовий рівень становить не 50%, а частка більшого класу. Ви можете додати вагу для кожного класу, щоб збалансувати помилку. Нехай- вага класу. Встановіть ваги таким чином, щоб

e r r (g) = \frac{1}{n} \sum_{i \leq n} 1_{g (x_{i}) \neq y_{i}}

$err(g) = \frac{1}{n} \sum_{i \leq n} \mathbb{1}_{g(x_i) \neq y_i}$

W_{y}

$W_y$

y

$y$

і визначимозважену емпіричну помилку

\frac{1}{W_{y}} \sim \frac{1}{n} \sum_{i \leq n} 1_{y_{i} = y}

$\frac{1}{W_y} \sim \frac{1}{n}\sum_{i \leq n} \mathbb{1}_{y_i = y}$

е r r_{W} (г) = \frac{1}{н} \sum_{i \leq н} W_{у_{i}} 1_{г (х_{i}) \neq у_{i}}

$err_W(g) = \frac{1}{n} \sum_{i \leq n} W_{y_i} \mathbb{1}_{g(x_i) \neq y_i}$

Як сказав Стеффен, матриця плутанини може бути хорошим способом оцінити якість класифікатора. У двійковому випадку ви можете отримати певну міру з цієї матриці, наприклад, чутливість та специфічність, оцінюючи здатність класифікатора виявити конкретний клас. Джерело помилки класифікатора може бути певним чином. Наприклад, класифікатор може бути занадто впевненим при прогнозуванні 1, але ніколи не кажіть неправильно, коли прогнозуєте 0. Багато класифікаторів можуть бути параметризовані для управління цією швидкістю (помилкові позитиви проти хибних негативів), і тоді вас зацікавить якість якості вся сім'я класифікатора, не лише одна. З цього ви зможете побудувати криву ROC , а вимірювання площі під кривою ROC дає вам якість цих класифікаторів.

Криві ROC можна розширити для вашої багатокласової проблеми. Я пропоную вам прочитати відповідь цієї теми .

— Еміль
джерело

Чи не потрібно ділити зважену емпіричну помилку на кількість класів, щоб бути на тій же шкалі, що і емпірична помилка? Інакше було б набагато більше ...

— PhilippPro

To evaluate multi-way text classification systems, I use micro- and macro-averaged F1 (F-measure). The F-measure is essentially a weighted combination of precision and recall that. For binary classification, the micro and macro approaches are the same, but, for the multi-way case, I think they might help you out. You can think of Micro F1 as a weighted combination of precision and recall that gives equal weight to every document, while Macro F1 gives equal weight to every class. For each, the F-measure equation is the same, but you calculate precision and recall differently:

F = \frac{(β^{2} + 1) P R}{β^{2} P + R},

$F = \frac{(\beta^{2} + 1)PR}{\beta^{2}P+R},$

where $\beta$ is typically set to 1. Then,

П_{м i c r о} = \frac{\sum_{i = 1}^{| С |} Т П_{i}}{\sum_{i = 1}^{| С |} Т П_{i} + Ж П_{i}}, R_{м i c r о} = \frac{\sum_{i = 1}^{| С |} Т П_{i}}{\sum_{i = 1}^{| С |} Т П_{i} + Ж N_{i}}

$P_{micro}=\frac{\sum^{|C|}_{i=1}TP_{i}}{\sum^{|C|}_{i=1}TP_{i}+FP_{i}}, R_{micro}=\frac{\sum^{|C|}_{i=1}TP_{i}}{\sum^{|C|}_{i=1}TP_{i}+FN_{i}}$

П_{м а c r о} = \frac{1}{| С |} \sum_{i = 1}^{| С |} \frac{Т П_{i}}{Т П_{i} + Ж П_{i}}, R_{м а c r о} = \frac{1}{| С |} \sum_{i = 1}^{| С |} \frac{Т П_{i}}{Т П_{i} + Ж N_{i}}

$P_{macro}=\frac{1}{|C|}\sum^{|C|}_{i=1}\frac{TP_{i}}{TP_{i}+FP_{i}}, R_{macro}=\frac{1}{|C|}\sum^{|C|}_{i=1}\frac{TP_{i}}{TP_{i}+FN_{i}}$

де $TP$ справжній Позитивний, $FP$ є хибнопозитивним, $FN$ є помилковим негативом, і $C$ є клас.

— Кайл.
джерело

# Function in R, using precision, recall and F statistics

check.model.accuracy <- function(predicted.class, actual.class){

  result.tbl <- as.data.frame(table(predicted.class,actual.class ) ) 

  result.tbl$Var1 <- as.character(result.tbl$predicted.class)
  result.tbl$Var2 <- as.character(result.tbl$actual.class)

  colnames(result.tbl)[1:2] <- c("Pred","Act")

  cntr <- 0  
  for (pred.class in unique(result.tbl$Pred) ){
    cntr <- cntr+ 1
    tp <- sum(result.tbl[result.tbl$Pred==pred.class & result.tbl$Act==pred.class, "Freq"])
    tp.fp <- sum(result.tbl[result.tbl$Pred == pred.class , "Freq" ])
    tp.fn <- sum(result.tbl[result.tbl$Act == pred.class , "Freq" ])
    presi <- tp/tp.fp 
    rec <- tp/tp.fn
    F.score <- 2*presi*rec/(presi+rec)
    if (cntr == 1 ) F.score.row <- cbind(pred.class, presi,rec,F.score)
    if (cntr > 1 ) F.score.row <- rbind(F.score.row,cbind(pred.class,presi,rec,F.score))
  }

  F.score.row <- as.data.frame(F.score.row) 
  return(F.score.row)
}

check.model.accuracy(predicted.df,actual.df) 
# For multiclass, average across all classes

— Ашиш Маркандай
джерело

Чи можете ви додати текст, щоб пояснити це?

— gung - Відновіть Моніку