Як вибрати метрику помилок при оцінці класифікатора?

15

Я бачив різні показники помилок, що використовуються в змаганнях Kaggle: середньоквадратичний, середній-квадратний, AUC серед інших. Яке загальне правило щодо вибору метрики помилок, тобто як ви можете знати, який показник помилки використовувати для даної проблеми? Чи є вказівки?

machine-learning classification error

— Вішал
джерело

12

Пул показників помилок, який ви можете вибрати, відрізняється між класифікацією та регресією. В останньому ви намагаєтеся передбачити одне безперервне значення, а при класифікації ви прогнозуєте дискретні класи типу "здоровий" або "не здоровий". З згаданих вами прикладів коренева середньоквадратична помилка буде застосовна для регресії та AUC для класифікації з двома класами.

Дозвольте трохи детальніше розповісти про класифікацію. Ви згадали про AUC як міру, яка є площею під кривою ROC, яка зазвичай застосовується лише для задач бінарної класифікації з двома класами. Хоча існують способи побудови кривої ROC для більш ніж двох класів, вони втрачають простоту кривої ROC для двох класів. Крім того, криві ROC можуть бути побудовані лише в тому випадку, якщо класифікатор вибору виводить якусь оцінку, пов'язану з кожним прогнозом. Наприклад, логістична регресія дасть вам ймовірність для кожного з двох класів. На додаток до їх простоти криві ROC мають перевагу в тому, що на них не впливає співвідношення між позитивно і негативно позначеними екземплярами у ваших наборах даних і не змушують вас вибирати поріг. Тим не менш, рекомендується не дивитись тільки на криву ROC окремо, але й на інші візуалізації. Я рекомендую ознайомитися з кривими точного відкликання та кривими витрат.одне істинне вимірювання помилок, всі вони мають свої сили та слабкі сторони.

Література, яку я вважаю корисною в цьому плані:

Fawcett, T. (2006). Вступ до аналізу ROC . Листи розпізнавання зразків, 27 (8), 861–874.
Drummond, C., & Holte, R. (2006). Криві витрат: вдосконалений метод візуалізації продуктивності класифікатора . Машинне навчання, 65 (1), 95–130
Паркер, C. (2011). Аналіз ефективності заходів для двійкових класифікаторів . 11 Міжнародна конференція IEEE з обміну даними (с. 517–526)
Девіс, Дж. Та Годріх, М. (2006). Зв'язок між кривими Precision-Recall та ROC . Матеріали 23-ї міжнародної конференції з машинного навчання (с. 233-240). Нью-Йорк, Нью-Йорк, США: ACM

Якщо ваш класифікатор не дає якихось результатів, вам доведеться повернутися до основних заходів, які можна отримати з матриці плутанини, що містить кількість справжніх позитивних, помилкових позитивних, справжніх негативів та помилкових негативів. Візуалізації, згадані вище (ROC, точність відкликання, крива витрат), базуються на цих таблицях, отриманих за допомогою різного порогу балів класифікатора. Найпопулярніший захід у цьому випадку, мабуть, F1-Measure $N$ $N \times N$ $N$ $2 \times 2$ $A$ $A$

— sebp
джерело

1

N

$N$

N \times N

$N \times N$

N

$N$

2 \times 2

$2\times2$

Дуже дякую за вказівку на цю помилку, я її виправив у відповіді вище.

— sebp

5

Дозвольте додати ще кілька думок до вже існуючих відповідей.

Більшість класифікаторів насправді мають проміжний безперервний бал, на який зазвичай застосовується поріг присвоєння жорстких класів (нижче t: клас a, вище: клас b). Змінюючи цей поріг, виходить РПЦ.
Взагалі, не годиться стискати таку криву в одне число. див., наприклад, «Випадок проти точності оцінки порівняння індукційних алгоритмів»
Є багато різних ROC, які мають однаковий AUC, і корисність може сильно відрізнятися для даної програми.
навпаки: вибір порогу може бути значною мірою визначається вашою програмою.
Не потрібно дивитись на ефективність класифікатора за межами цих меж, і якщо ви виберете один показник, він повинен хоча б узагальнити лише відповідний діапазон обмежених інших показників.
Залежно від дизайну дослідження, загальна частка правильних чи неправильно класифікованих зразків може бути відповідним резюме чи ні, і висновки, які ви можете зробити з цього, також залежатимуть від проекту дослідження: Чи відображають ваші дані тесту попередні ймовірності (поширеність) заняття? Для населення, для якого передбачається використовувати ваш класифікатор? Чи збирали його стратифікованим способом? Це тісно пов'язане з тим, що більшість користувачів класифікатора більше зацікавлені в прогнозованих значеннях, але чутливість та специфічність вимірювати набагато простіше.
Ви запитуєте про загальні вказівки. Одне загальне керівництво - це те, що вам потрібно знати
- яка робота вам потрібна (чутливість, специфічність, прогнозні значення тощо) відповідають на конкретні запитання про поведінку вашого класифікатора, дивіться, що я тут написав ).
- Які прийнятні робочі діапазони для цих характеристик продуктивності для вашої програми ?.
  Вони можуть дуже відрізнятися: можливо, ви будете готові прийняти цілком неправдиві негативи щодо виявлення спаму, але це не буде прийнятною схемою діагностики ВІЛ ...

Я думаю, ви не зможете знайти корисну метрику, якщо не зможете відповісти на ці запитання.

Це трохи схоже, що немає жодного безкоштовного обіду для перевірки класифікатора.

— cbeleites підтримує Моніку
джерело

2

Очікуваний показник помилок помилкової класифікації - це метод, який я використовував і бачив найчастіше. AUC ROC - це міра набору правил класифікації. Якщо ідея полягає у порівнянні конкретного класифікатора з іншим, тоді AUC не підходить. Деяка форма помилки класифікації має найбільш сенс, оскільки вона найбільш безпосередньо відображає виконання правила класифікації.

Значна робота була спрямована на пошук хороших оцінок рівня помилок класифікації через велику упередженість оцінки замінності та велику дисперсію виходу з виходу. Бутстрап і гладкі оцінювачі конфісковані. Дивіться, наприклад, статтю Efron в JASA 1983 про вдосконалення завантажувальної програми внаслідок перехресної перевірки.

Ось технічний звіт університету Стенфордського університету 1995 року Ефроном і Тібширамі, який підсумовує літературу, включаючи деякі мої власні роботи.

— Майкл Р. Черник
джерело

Порівняння продуктивності двох класифікаторів на одному наборі даних - це ще одна тема, про яку можна посперечатися. Зокрема, у випадку ROC та AUC існує кілька методів порівняння або кривих ROC в цілому, або оцінок AUC. Це по суті статистичні тести з нульовою гіпотезою, що ROC / AUC не відрізняється. Перехресне підтвердження проти bootstrap - ще одна цікава тема, я нещодавно побачив документ ( dx.doi.org/10.1016/j.csda.2010.03.004 ) про це. Я думаю, якщо врахувати всі аспекти одразу, це може стати досить заляканим.

— sebp