Чи можна передбачувану ймовірність логістичної регресії трактувати як впевненість у класифікації


12

Чи можемо ми інтерпретувати задню ймовірність, отриману від класифікатора, який видає передбачуване значення класу та ймовірність (наприклад, логістична регресія або Naive Bayes), як якусь оцінку довіри, яка присвоюється цьому прогнозованому значенню класу?

Відповіді:


8

Як вірно стверджують інші відповіді, повідомлені ймовірності таких моделей, як логістична регресія та наївний Байєс, є оцінками ймовірності класу. Якби модель була правдивою, ймовірність справді була б ймовірністю правильної класифікації.

Однак досить важливо розуміти, що це може ввести в оману, оскільки модель оцінюється і, отже, не є правильною моделлю. Є щонайменше три випуски.

  • Невизначеність оцінок.
  • Помилкова модель.
  • Упередження.

Невизначеність як раз скрізь присутній факт , що ймовірність є лише приблизними. Інтервал довіри передбачуваної ймовірності класу може дати деяке уявлення про невизначеність (про ймовірність класу, а не про класифікацію).

Якщо модель помилкова і зіткнетесь, це ймовірності класів можуть бути досить оманливими, навіть якщо прогнози класу хороші. Логістична регресія може призвести до помилок ймовірностей класу для двох досить добре розділених класів, якщо деякі точки даних трохи екстремальні. Це все ще може зробити гарну роботу з точки зору класифікації.

Якщо процедура оцінки (навмисно) дає необ’єктивну оцінку , ймовірності класу помилкові. Це те, що я бачу в таких методах регуляризації, як ласо та хребет для логістичної регресії. Незважаючи на те, що перехресне підтвердження вибору регуляризації призводить до моделі з хорошою ефективністю з точки зору класифікації, отримані ймовірності класів явно занижені (занадто близькі до 0,5) у тестових випадках. Це не обов'язково погано, але важливо пам’ятати.


2

Для тестового випадку (конкретного введення) його клас (скажімо, мітка 1 для двійкового виводу) прогнозована ймовірність - це ймовірність, що тестовий приклад належить до цього класу. Протягом багатьох таких тестових випадків частка, що належить до класу 1, буде схильна до прогнозованої ймовірності. Впевненість має конотації довірчих інтервалів, які є чимось зовсім іншим.


1

Якщо класифікатор прогнозує певний клас з вірогідністю, це число може бути використане як проксі для ступеня довіри до цієї класифікації. Не плутати з довірчими інтервалами. Наприклад, якщо класифікатор P прогнозує два випадки як +1 & -1 з вірогідністю 80% і 60%, то правильно сказати, що це класифікація +1 впевненіше, ніж класифікація -1. Дисперсія, виміряна p (1-p), також є хорошою мірою невизначеності. Зауважте, базовий рівень достовірності становить 50%, а не 0.


1

Враховуючи класифікатор з 2 класами (наприклад, лінійний дискримінант або класифікатор логістичної регресії 2 класу), дискримінантне значення для обох класів може бути застосовано до функції softmax, щоб отримати оцінку задньої ймовірності для цього класу:

P1 = exp (d1) / (exp (d1) + exp (d2))

Якщо P1 - оцінка задніх ймовірностей для класу 1, d1 і d2 є дискримінантними значеннями для класів 1 і 2 відповідно. У цьому випадку оцінювану задню ймовірність для даного класу можна сприймати як ступінь довіри до класу, для даного випадку P1 дорівнює 1 - P2.


1
Ця відповідь, схоже, ототожнює "ймовірність" з "впевненістю", тоді як відповідь @ Йоди (правильно) розрізняє два.
whuber

@whuber Я думаю, що в цілому впевненість можна розглядати як силу переконань. Таким чином це як імовірність. Інтервал впевненості та довіри - це дві різні речі. Однак навіть для терміна довірчого інтервалу рівень довіри є вірогідністю покриття для випадкового інтервалу.
Майкл Р. Черник

Я не погоджуюся з вашими зауваженнями, @Michael, в тому сенсі, що такий термін, як "оцінка довіри", може означати майже що завгодно (але, можливо, його використання повинно бути застарілим саме з цієї причини). І все-таки в якому сенсі відповідає значення логістичної регресії "ймовірністю покриття"? Чи запропоноване вами використання "впевненості" як сили переконання робить його синонімом суб'єктивної "ймовірності" чи все ще зберігається якась різниця? (Якщо так, то що?)
whuber

1
@whuber Я думаю, що ти заглиблюєшся в це набагато глибше, ніж я задумав. Я просто хочу сказати, що тільки тому, що ми зазвичай пов'язуємо слово "впевненість" з інтервалом довіри, це не означає, що показник довіри за термінами ОП не міг би використовуватися для позначення ймовірності (можливо, як байєсівський погляд на ймовірність як суб'єктивний рівень віри, але не обов'язково).
Майкл Р. Черник

1
@whuber, я справді мав на увазі впевненість у етикетці класу у значенні "сили переконання", тобто чим більша величина задньої ймовірності для даного класу, тим більше впевненості у вас передбачуваній етикетці класу. Однак я рада видалити цю відповідь.
BGreene
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.