Мені на думку спадають кілька можливостей.
Перегляд загальної кількості відвідувань зазвичай не дуже гарна ідея, оскільки це буде залежати від складу тестового набору, якщо продуктивність для різних класів відрізняється. Отже, принаймні, вам слід вказати (та обґрунтувати) відносну частоту класів у ваших тестових даних, щоб отримати значуще значення.
По-друге, як уже сказано @Shorack, вкажіть, які типи помилок є важливими. Часто класифікатору необхідно відповідати певним критеріям ефективності, щоб бути корисним (а загальна точність рідко є достатньою мірою). Існують такі заходи, як чутливість, специфічність, позитивна та негативна попереджувальна цінність, які враховують різні класи та різні типи помилок. Можна сказати, що ці заходи відповідають на різні запитання щодо класифікатора:
- Чутливість: Яка частина випадків, що дійсно належать до класу С, визнається такою?
- специфічність: Яка частина випадків, які справді не належать до класу С, визнається такою?
- позитивне прогнозне значення: Враховуючи, що класифікатор прогнозує клас C, яка ймовірність правильності цього прогнозу?
- негативне значення прогнозування: Враховуючи, що класифікатор прогнозує, що випадок не є класом C, яка ймовірність того, що це прогноз правильний?
Ці запитання часто дозволяють сформулювати специфікації, необхідні класифікатору, щоб бути корисними.
Прогнозні значення часто важливіші з точки зору практичного застосування класифікатора: вони обумовлені прогнозуванням, яка ситуація ви перебуваєте при застосуванні класифікатора (пацієнт зазвичай не цікавить, наскільки вірогідний тест - це визнання хворих випадків, а скоріше, наскільки вірно встановлений діагноз). Однак для правильного їх обчислення вам потрібно знати відносні частоти різних класів у сукупності, для яких використовується класифікатор (схоже, у вас є ця інформація - тому нічого не заважає цьому дивитися).
Ви також можете переглянути інформаційний приріст, який дає вам позитивний чи негативний прогноз. Це вимірюється коефіцієнтом позитивної та негативної ймовірності, LR⁺ та LR⁻. Коротко вони розповідають, наскільки прогноз змінює шанси на предмет відповідного класу. (див. мою відповідь тут для більш детального пояснення)
Для вашого тривіального класифікатора все виглядає приблизно так: я буду використовувати клас "0" як клас, про який йдеться, тому "позитивний" означає клас "0". Із 100 випадків на 100 прогнозуються позитивні (належать до класу 0). 97 з них насправді, 3 - ні. Чутливість до класу 0 становить 100% (всі 97 випадків, що справді належать до класу 0, були визнані), специфічність - 0 (жоден з інших випадків не було визнано). позитивне значення прогнозування (якщо припустима відносна частота 97: 3 є репрезентативною) становить 97%, негативне значення прогнозування неможливо обчислити, оскільки негативне прогнозування не відбулося.
LR+=чутливість1 - специфіка= 1
LR-=1 - чутливістьспецифічність=00
Тепер LR⁺ і LR⁻ - це фактори, за допомогою яких ви множите шанси на те, щоб випадок належав до позитивного класу ("0"). Маючи LR⁺ в 1 означає , що позитивний прогноз не дає вам ніякої інформації: це не змінять шанси. Отже, у вас є міра, яка чітко виражає той факт, що ваш тривіальний класифікатор не додає жодної інформації .
Зовсім інший напрямок думок: Ви згадуєте, що хотіли б оцінити різні класифікатори. Це трохи схоже на порівняння чи вибір класифікатора. Застереження щодо заходів, про які я обговорюю вище, полягає в тому, що вони піддаються дуже високій випадковій невизначеності (тобто потрібно багато тестових випадків), якщо ви оцінюєте їх на етикетках "жорсткого" класу. Якщо передбачення в основному є безперервним (метричним, наприклад, задньою ймовірністю), ви можете використовувати споріднені заходи, які розглядають один і той же питання, але використовують не частки справ, а постійні заходи, дивіться тут . Вони також краще підходять для виявлення невеликих відмінностей у прогнозах.
(@FrankHarrell скаже вам, що вам потрібні "правильні правила скорингу", так що це ще один пошуковий термін, який потрібно пам’ятати.)