Чому класифікатор наївних баєсів оптимальний для втрати 0-1?


13

Класифікатор Naive Bayes - це класифікатор, який присвоює елементи x класу C на основі максимізації заднього P(C|x) для приналежності до класу, і передбачає, що функції елементів не залежать.

Втрата 0-1 - це втрата, яка присвоює будь-якій помилковій класифікації втрату "1", а втрату "0" - будь-якій правильній класифікації.

Я часто читаю (1), що класифікатор "Наївний Бейс" є оптимальним для втрати 0-1. Чому це правда?

(1) Одне зразкове джерело: класифікатор Байєса та помилка Байєса


2
Чи можете ви надати посилання на свою заяву: " Я часто читаю, що класифікатор" Наївних Бейсів "є оптимальним для втрати 0-1 "? Як, де , можливо , ви читали цей тип заяви в минулому
Джон

1
редагував, додав зразкове джерело

Відповіді:


16

Насправді це досить просто: класифікатор Байєса вибирає клас, який має найбільшу апостеріорну ймовірність виникнення (так звана максимальна апостеріорна оцінка ). Функція втрати 0-1 карає неправильної класифікації, тобто присвоює найменші втрати рішення, яке має найбільшу кількість правильних класифікацій. Тож в обох випадках ми говоримо про оцінку режиму . Нагадаємо, що режим є найпоширенішим значенням у наборі даних або найбільш ймовірним значенням , тому як максимізація задньої ймовірності, так і мінімізація втрати 0-1 призводить до оцінки режиму.

Якщо вам потрібен офіційний доказ, це наведено у статті " Вступ до теорії рішень Байєса" Анжели Дж. Ю:

Функція бінарних втрат 0-1 має такий вигляд:

lx(s^,s)=1δs^s={1ifs^s0otherwise

де - функція дельти Кронекера. (...) очікуваний збиток:δ

Lх(с^)=слх(с^,с)П(с=сх)=с(1-δс^с)П(с=сх)=сП(с=сх)гс-сδс^сП(с=сх)=1-П(с=сх)

Це справедливо для максимальної післяорієнтованої оцінки в цілому. Отже, якщо ви знаєте задній розподіл, то припускаючи втрату 0-1, найбільш оптимальним правилом класифікації є прийняття режиму заднього розподілу, ми називаємо це оптимальним класифікатором Байєса . У реальному житті ми зазвичай не знаємо заднього розподілу, а краще оцінюємо його. Класифікатор Naive Bayes наближає оптимальний класифікатор, дивлячись на емпіричний розподіл та припускаючи незалежність прогнозів. Тож наївний класифікатор Байєса сам по собі не є оптимальним, але він наближає оптимальне рішення. У вашому запитанні ви, схоже, плутаєте ці дві речі.


Я думаю, що я розумію: тож офіційним доказом було б щось, що відповідає лінії Loss (action_1) = 1-P (action_2 | дані) <---, ми хочемо це мінімізувати. Мінімізація цього знову-таки дорівнює максимізації пріоритету правильного класу (тобто максимізації P (action_2 | даних). Однак, що мене бентежить, є те, чому не кожен класифікатор був би оптимальним у цьому відношенні - оскільки це здається найбільш основною вимогою для присвоєння зразка даних класу. Отже, якщо ми завжди вирішували присвоювати нам зразок даних класу з більш високою задньою, чи ми автоматично не заповнюємо цю оптимальність?

@TestGuest перевірити мою редакцію на формальне підтвердження.
Тім

Це найскладніший формалізм, який я бачив за такий доказ :)) дякую, проте, я сподіваюся, що він допомагає і іншим.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.