Міра продуктивності класифікатора, що поєднує чутливість та специфічність?


9

У мене є дані з 2-класовим маркуванням, за якими я здійснюю класифікацію, використовуючи кілька класифікаторів. А набори даних добре збалансовані. Оцінюючи ефективність класифікаторів, я повинен враховувати, наскільки точний класифікатор у визначенні не тільки справжніх позитивних, але й справжніх негативів. Тому, якщо я буду використовувати точність, і якщо класифікатор схильний до позитивів і класифікує все як позитивне, я отримаю близько 50% точності, навіть якщо це не вдалося класифікувати будь-які справжні негативи. Це властивість поширюється на точність та нагадування, оскільки вони зосереджені лише на одному класі, а в свою чергу - на F1-бал. (Це я розумію навіть з цієї роботи, наприклад, " Поза межами точності, показника F та ROC: сім'я дискримінантних заходів для оцінки ефективності ").

Тому я можу використовувати чутливість та специфічність (TPR та TNR), щоб побачити, як виконується класифікатор для кожного класу, де я прагну максимізувати ці значення.

Моє запитання полягає в тому, що я шукаю міру, яка поєднує обидві ці цінності в одну змістовну міру . Я переглянув заходи, передбачені в цьому документі, але виявив, що це нетривіально. І виходячи з свого розуміння, мені було цікаво, чому ми не можемо застосувати щось на зразок F-балу, але замість точності та нагадування я б використовував чутливість та специфічність? Тож формула була б

my Performance Measure=2sensitivityspecificitysensitivity+specificity
і моєю метою було б досягти максимальної міри. Я вважаю це дуже представницьким. Чи є вже подібна формула? І чи має це сенс чи це навіть математично здорово?

Відповіді:


1

Я б сказав, що може бути не будь-який конкретний або лише один захід, який слід враховувати.

Востаннє, коли я робив імовірнісну класифікацію, у мене був ROCR-пакет і чіткі значення вартості для помилкових позитивів та помилкових негативів.

Я врахував усі граничні показники від 0 до 1 і застосував багато заходів, таких як очікувана вартість при виборі цієї точки відсіку. Звичайно, у мене вже була міра AUC для загальної міри класифікації точності. Але для мене це була не єдина можливість.

Значення для випадків FP та FN повинні виходити за межі вашої конкретної моделі, можливо, це надає якийсь експерт з питань теми?

Наприклад, в аналізі скорочення клієнтів може бути дорожче неправильно зробити висновок про те, що клієнт не збивається, але також, що буде дорого давати загальне зниження цін на послуги, не вимагаючи при цьому орієнтуватися на ці групи.

-Аналіст


Насправді для мого випадку це щось подібне. Тому що випадки FP та FN в моїй моделі будуть дорогими. Я врешті-решт зробив щось подібне до того, що ви запропонували "використовувати декілька заходів". Я обчислював F-бал для кожної мітки класу і для оцінки моделей використовую обидва ці значення разом із деякою функцією витрат, яка використовує точність (для обох класів) для обчислення прибутку і віднімає з нього збитки, понесені від випадків FP та FN.
Каладжі

3

Точність класифікації, чутливість, специфічність та будь-яке просте їх поєднання - це все неправильні правила балів. Тобто вони оптимізовані фальшивою моделлю. Використовуючи їх, ви змусите вибирати неправильні функції, давати неправильні ваги та приймати неоптимальні рішення. Одним із багатьох способів рішення є неоптимальним є хибна впевненість, яку ви отримуєте, коли передбачувані ймовірності близькі до порогу, який передбачає використання цих заходів. Коротше кажучи, все, що може піти не так, з цими заходами помиляється. Використання їх для порівняння навіть двох добре підігнаних моделей вас введе в оману.


1
Я погоджуюся, що будь-яка створена модель - це "фальшива модель", як ви згадали. Але все ж мені потрібен захід, щоб оцінити його якість, щоб з часом вибрати модель. Якщо припустити, що мої функції вже вибрані (намагаються декілька наборів даних з різними наборами функцій), і я використовую 5-кратну перехресну перевірку для того, щоб визначити, чи мої класифікатори переоблаштовують дані, ці прості "правила оцінки" є найбільш широко використовується в літературі. Які ще заходи ви б запропонували тоді? Більшість заходів спираються на комбінації цих значень, включаючи LR +/-, ROC та AUC.
Каладжі

Перш за все, ви обережні, щоб повторити всі дослідницькі / моделювання кроки з нуля для кожного з 5 модельних підходів, які використовуються у 5-кратному реєстрі? Стандартною мірою якості золота є вірогідність зрубу та кількості, одержані від нього, такі якR2і відхилення. Для двійковихYце призводить до логарифмічного правила оцінювання ймовірності. У цьому випадку ви також можете використати інший правильний бал, показник Brier (середня помилка квадрата в прогнозованих ймовірностях).
Френк Харрелл

На основі мого читання це застосовується у випадку, якщо мої моделі генерують ймовірності, а не дискретні значення (тобто ймовірність того, що екземпляр належить до класу 0 або 1 замість виведення 0 або 1). А це, в свою чергу, стосується реалізації класифікаторів, наприклад, це стосується класифікатора Naive Bayes, але не для 1-NN-класифікатора. Зауважте, що я не реалізую класифікатори, я використовую деякі класифікатори в Weka для створення моїх моделей. Можливо, я тут трохи розгублений. Дякую.
Kalaji

1
Якщо метод, який ви використовуєте, не дає ймовірностей, я пропоную знайти інший метод.
Френк Харрелл

Якщо між реальною вартістю точності та чутливості (не застосовується до оригіналу публікації) є чітко зрозумілі розбіжності, чому б ви не могли їх використовувати? Чи буде краща упереджена помилка перехресної ентропії (наприклад, штраф в (1-c) * log (1-p) терміні подвоюється)?
Макс Кандоція
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.