Чи точність є неправильним правилом оцінювання у бінарній класифікації?


13

Нещодавно я дізнався про правильні правила зарахування імовірнісних класифікаторів. Кілька ниток на цьому веб-сайті підкреслили, що точність - це неправильне оцінювальне правило, і його не слід використовувати для оцінки якості прогнозів, породжених ймовірнісною моделлю, такою як логістична регресія.

Однак чимало академічних робіт, які я прочитав, дали втрати внаслідок неправильної класифікації як приклад (не суворого) правильного балового правила в умовах бінарної класифікації. Найяскравіше пояснення, яке я міг знайти в цій статті , внизу сторінки 7. Наскільки я розумію, мінімізація втрат від класифікації рівнозначна максимальній точності, а рівняння в роботі мають сенс інтуїтивно зрозумілим.

Наприклад: використовуючи позначення статті, якщо справжня умовна ймовірність (з урахуванням деякого векторного ознаки x ) класу, що цікавить, становить η = 0,7, будь-який прогноз q > 0,5 матиме очікуваний збиток R (η | q ) = 0,7 (0) + 0,3 (1) = 0,3, і будь-який q 0,5 матиме очікувану втрату 0,7. Отже, функція втрат буде мінімізована при q = η = 0,7 і, отже, правильна; узагальнення до всього діапазону справжніх умовних ймовірностей та прогнозів здається досить простим.

Якщо припустити, що наведені вище розрахунки та твердження є правильними, недоліки не унікального мінімуму та всі прогнози вище 0,5, що мають однаковий мінімальний очікуваний збиток, очевидні. Я все ще не бачу причин використовувати точність щодо традиційних альтернатив, таких як оцінка журналу, показник Brier тощо. Однак, чи правильно сказати, що точність - це правильне правило оцінювання при оцінці ймовірнісних моделей у бінарних умовах, чи я роблю помилка - чи в моєму розумінні втрати від класифікації, чи в прирівнюванні її до точності?

Відповіді:


15

TL; DR

Точність - це неправильне оцінювання. Не використовуйте його.

Трохи довша версія

Власне, точність - це навіть не правило. Тож запитати, чи правильно це (строго) - це помилка категорії. Найбільше, що можна сказати, - це те, що при додаткових припущеннях точність узгоджується з правилом підрахунку, яке є неправильним, переривчастим та оманливим. (Не використовуйте його.)

Ваша плутанина

Ваша плутанина випливає з того, що втрати неправильної класифікації відповідно до паперу, який ви цитуєте, також не є правилом оцінки.

Деталі: правила оцінки та класифікаційні оцінки

Давайте зафіксуємо термінологію. Нас цікавить двійковий результат , і у нас є ймовірнісний прогноз . Ми знаємо, що , але наша модель може чи не може цього знати.y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

Правило скорингу є відображенням , яке приймає імовірнісний прогноз і результат до втрати,q^y

s:(q^,y)s(q^,y).

s є правильним, якщо він оптимізований в очікуванні . ("Оптимізований" зазвичай означає "мінімізований", але деякі автори перевертають знаки і намагаються максимально скористатися правилом зарахування.) є строго правильним, якщо його оптимізують у очікуванні лише через .q^=ηsq^=η

Зазвичай ми оцінюємо за багатьма прогнозами та відповідними результатами та середнім для оцінки цього очікування.sq^iyi

Тепер, що таке точність ? Точність не сприймає ймовірнісного прогнозу як аргументу. Для цього потрібна класифікаціяy^{0,1} та результат:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Тому точність - це не правило . Це класифікаційна оцінка. (Це термін, який я щойно вигадав; не шукайте цього в літературі.)

Тепер, звичайно, ми можемо взяти ймовірнісний прогноз, як наш і перетворити його на класифікацію . Але для цього нам знадобляться додаткові припущення, про які говорилося вище. Наприклад, дуже часто використовувати поріг та класифікувати:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Дуже поширене порогове значення - . Зауважимо, що якщо ми будемо використовувати цей поріг, а потім оцінювати точність за багатьма прогнозами (як вище) та відповідними результатами , то ми точно доходимо до втрати від неправильної класифікації, згідно Buja та ін. Таким чином, втрата від класифікації також не є правилом оцінки, а класифікаційною оцінкою.θ=0.5q^iyi

Якщо взяти алгоритм класифікації, як описаний вище, ми можемо перетворити оцінку класифікації в правило оцінювання. Справа в тому, що нам потрібні додаткові припущення класифікатора. І ця втрата точності чи неправильної класифікації або будь-яка інша оцінка класифікації, яку ми обираємо, може менше залежати від імовірнісного прогнозу і більше від того, як ми перетворимо на класифікацію . Таким чином, оптимізація оцінки класифікації може бути переслідувана за червоною оселедець, якщо ми насправді зацікавлені в оцінці .q^q^y^=y^(q^,θ)q^

Тепер, що неправомірно в цих правилах підрахунку балів-під додатковими припущеннями? У цьому випадку нічого. , під неявним , дозволить досягти максимальної точності та мінімізувати втрати під час класифікації за всі можливі . Отже, у цьому випадку наші припущення щодо підрахунку правил, недопущення додаткових припущень є правильними.q^=ηθ=0.5q^(0,1)

Зауважте, що для точності чи втрати неправильної класифікації важливо лише одне питання: чи класифікуємо ( ) все як клас більшості чи ні? y^Якщо ми це зробимо, точність або втрата неправильної класифікації задоволені. Якщо ні, то вони ні. Що важливо в цьому питанні, це те, що він має лише дуже неглибокий зв’язок з якістю .q^

Отже, наші припущення щодо додаткового припущення не є строго належними, оскільки будь-яке призведе до тієї ж класифікаційної оцінки. Ми можемо використовувати стандарт , вважаючи, що клас більшості відбувається з і класифікуємо все як клас більшості, тому що . Точність висока, але ми не маємо стимулу вдосконалити наш до правильного значення .thetas=0,5 кв =0,99 квthetas ; д ηq^θθ=0.5q^=0.99q^θq^η

Або ми, можливо, провели обширний аналіз асиметричних витрат на помилкову класифікацію і вирішили, що найкращим порогом ймовірності класифікації насправді повинен бути . Наприклад, це може статися, якщо означає, що ви страждаєте від якоїсь хвороби. Можливо, буде краще лікувати вас, навіть якщо ви не страждаєте від захворювання ( ), а не навпаки, тому може бути доцільним лікувати людей, навіть якщо є низька прогнозована ймовірність (мала ) вони страждають від цього. Тоді ми можемо мати жахливо помилкову модель, яка вважає, що справжній клас більшості відбувається лише зу = 1 у = 0 д д = 0,25 кв ≥ & thetas ;θ=0.2y=1y=0q^q^=0.25- але через витрати на помилкову класифікацію ми все-таки класифікуємо все як цей (припускається) міноритарний клас, тому що знову . Якби ми це зробили, точність або втрата неправильної класифікації змусили б нас повірити, що ми робимо все правильно, навіть якщо наша прогнозована модель навіть не зрозуміє, який з наших двох класів є більшістю.q^θ

Тому точність або втрати неправильної класифікації можуть вводити в оману.

Крім того, точність та втрата неправильної класифікації є невідповідними згідно з додатковими припущеннями у більш складних ситуаціях, коли результати не є ідентичними. Френк Харрелл у своєму блозі Пошкодження, заподіяні класифікаційною точністю та іншими переривчастими правилами непідвладного точного відліку, наводить приклад з однієї з своїх книг, де використання точності або втрати неправильної класифікації призведе до неправильної моделі, оскільки вони не оптимізовані правильним умовним прогнозуванням ймовірність.

Ще одна проблема з точністю та втратами неправильної класифікації полягає в тому, що вони перериваються як функція порогу . Френк Харрелл теж займається цим.θ

Додаткову інформацію можна знайти на Чому точність не є найкращим показником для оцінки класифікаційних моделей? .

Суть

Не використовуйте точність. Ні втрати від неправильної класифікації.

Нітпік: "строгий" проти "строго"

Чи варто говорити про "суворі" правильні правила скорингу, або про "строго" правильні правила скорингу? "Строгий" змінює "належне", а не "правило скорингу". (Існують "правильні правила скорингу" та "строго правильні правила скорингу", але немає "суворих правил скорингу".) Як таке, "суворо" має бути прислівник, а не прикметник, і "суворо" слід використовувати. Як це часто зустрічається в літературі, наприклад, праці Тильмана Гнейтінга.


Є багато аспектів вашої публікації, яких я не дотримуюсь (або вважаю, що не мають відношення до питання, яке я задав), але почнемо з "втрати неправильної класифікації відповідно до викладеної вами статті не є правилом оцінки". Формула в статті дуже чітко дана: L1 (1-q) = 1 [q <= 0,5] (пробачте про неякісне форматування). Це для всіх практичних цілей крок функція, яка безпосередньо відображає будь-який ймовірнісний прогноз і пов'язаний з ним результат до втрати 0 або 1. Крім того, 0,5 - це просто параметр, який контролює, де відбувається крок; Я не бачу залучення "припущення". Як це не правило балів?
Zyzzva

1
Поріг 0,5 - припущення. Імовірнісне передбачення відображається в класифікацію за допомогою порогу, і втрата під час класифікації є лише функцією цієї класифікації. Ви можете обчислити втрату помилкової класифікації однаково для будь-якої іншої класифікації, наприклад, такої, яка закочує матрицю і призначає екземпляр до класу A, якщо ми прокручуємо 1 або 2. Я зробив усе можливе, щоб пояснити, що є складною та часто неправильно зрозумілою темою (і Я відчуваю, що все, про що пишу, має відношення); Мені шкода, якщо мені це не вдалося. Я був би радий обговорити будь-які інші пункти. q
Стефан Коласа

1
Що стосується коментаря щодо релевантності, я прошу вибачення, якщо він вийшов не так. Я намагався зосередити сферу питання саме на належному відносно неналежного, а не розривного / оманливого / тощо. Я добре знайомий із наданими вами посиланнями і не маю жодних проблем із вашими коментарями щодо витрат на помилкову класифікацію чи підсумкового рядка. Я просто домагаюся більш жорсткого пояснення твердження "точність неправильна", особливо з огляду на те, що цей документ пропонує інакше для загального випадку використання бінарних результатів. Я вдячний, що ви знайшли час, щоб обговорити це зі мною і поділитися своїми детальними думками.
Zyzzva

1
Після подальшої рефлексії, я думаю, я зрозумів чіткіше, що ви робите. Якщо ми розглядаємо ту саму функцію кроку з кроком у 0,6 (відповідає класифікації на порозі 0,6), то правило балів є неправильним, оскільки очікувана втрата більше не буде мінімізована прогнозом q = n для n у діапазоні [ 0,5, 0,6]. Загалом, це буде неправильним на кожному порозі, окрім 0,5, і часто на практиці ми хочемо використовувати інші пороги через асиметричні витрати на помилкову класифікацію, як ви вказали.
Zyzzva

1
Я погоджуюсь, що точність явно є поганою метрикою для оцінки ймовірностей, навіть коли поріг 0,5 виправданий. Я сказала стільки ж в кінці першої публікації, яку я зробила, але це допомогло з’ясувати конкретні деталі, з якими я мав проблеми, а саме - узгодити щось, що я неправильно зрозумів, як показувати, що точність є правильною для двійкових результатів (коли це реально лише стосується дуже конкретного випадку 0,5 порогу) із начебто чорно-білим твердженням "точність неправильна", яку я бачив багато. Дякуємо за вашу допомогу та терпіння.
Zyzzva
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.