Відповіді:
Пул показників помилок, який ви можете вибрати, відрізняється між класифікацією та регресією. В останньому ви намагаєтеся передбачити одне безперервне значення, а при класифікації ви прогнозуєте дискретні класи типу "здоровий" або "не здоровий". З згаданих вами прикладів коренева середньоквадратична помилка буде застосовна для регресії та AUC для класифікації з двома класами.
Дозвольте трохи детальніше розповісти про класифікацію. Ви згадали про AUC як міру, яка є площею під кривою ROC, яка зазвичай застосовується лише для задач бінарної класифікації з двома класами. Хоча існують способи побудови кривої ROC для більш ніж двох класів, вони втрачають простоту кривої ROC для двох класів. Крім того, криві ROC можуть бути побудовані лише в тому випадку, якщо класифікатор вибору виводить якусь оцінку, пов'язану з кожним прогнозом. Наприклад, логістична регресія дасть вам ймовірність для кожного з двох класів. На додаток до їх простоти криві ROC мають перевагу в тому, що на них не впливає співвідношення між позитивно і негативно позначеними екземплярами у ваших наборах даних і не змушують вас вибирати поріг. Тим не менш, рекомендується не дивитись тільки на криву ROC окремо, але й на інші візуалізації. Я рекомендую ознайомитися з кривими точного відкликання та кривими витрат.одне істинне вимірювання помилок, всі вони мають свої сили та слабкі сторони.
Література, яку я вважаю корисною в цьому плані:
Якщо ваш класифікатор не дає якихось результатів, вам доведеться повернутися до основних заходів, які можна отримати з матриці плутанини, що містить кількість справжніх позитивних, помилкових позитивних, справжніх негативів та помилкових негативів. Візуалізації, згадані вище (ROC, точність відкликання, крива витрат), базуються на цих таблицях, отриманих за допомогою різного порогу балів класифікатора. Найпопулярніший захід у цьому випадку, мабуть, F1-Measure
Дозвольте додати ще кілька думок до вже існуючих відповідей.
Залежно від дизайну дослідження, загальна частка правильних чи неправильно класифікованих зразків може бути відповідним резюме чи ні, і висновки, які ви можете зробити з цього, також залежатимуть від проекту дослідження: Чи відображають ваші дані тесту попередні ймовірності (поширеність) заняття? Для населення, для якого передбачається використовувати ваш класифікатор? Чи збирали його стратифікованим способом? Це тісно пов'язане з тим, що більшість користувачів класифікатора більше зацікавлені в прогнозованих значеннях, але чутливість та специфічність вимірювати набагато простіше.
Ви запитуєте про загальні вказівки. Одне загальне керівництво - це те, що вам потрібно знати
Я думаю, ви не зможете знайти корисну метрику, якщо не зможете відповісти на ці запитання.
Це трохи схоже, що немає жодного безкоштовного обіду для перевірки класифікатора.
Очікуваний показник помилок помилкової класифікації - це метод, який я використовував і бачив найчастіше. AUC ROC - це міра набору правил класифікації. Якщо ідея полягає у порівнянні конкретного класифікатора з іншим, тоді AUC не підходить. Деяка форма помилки класифікації має найбільш сенс, оскільки вона найбільш безпосередньо відображає виконання правила класифікації.
Значна робота була спрямована на пошук хороших оцінок рівня помилок класифікації через велику упередженість оцінки замінності та велику дисперсію виходу з виходу. Бутстрап і гладкі оцінювачі конфісковані. Дивіться, наприклад, статтю Efron в JASA 1983 про вдосконалення завантажувальної програми внаслідок перехресної перевірки.
Ось технічний звіт університету Стенфордського університету 1995 року Ефроном і Тібширамі, який підсумовує літературу, включаючи деякі мої власні роботи.