Чому класифікатор Байєса є ідеальним класифікатором?

11

Вважається ідеальним випадком, коли структура ймовірностей, що лежать в основі категорій, досконало відома.

Чому саме завдяки класифікатору Bayes ми досягаємо найкращих показників, яких можна досягти?

Яке формальне підтвердження / пояснення цьому? Ми завжди використовуємо класифікатор Байєса як орієнтир для порівняння продуктивності всіх інших класифікаторів.

— Ватсал
джерело

9

Чому саме завдяки класифікатору Bayes ми досягаємо найкращих показників, яких можна досягти? Яке формальне підтвердження / пояснення цьому?

Зазвичай вважається , що набір даних складається з iid зразків розподілу, який генерує ваші дані. Потім побудувати прогнозну модель з наведених даних: дан зразок , ви прогнозуєте клас , в той час як реальний клас зразка . $D$ $n$ $x_i$ $x_i$ $\hat{f}(x_i)$ $f(x_i)$

Однак, в теорії, ви можете вирішити , щоб не вибрати одну конкретну модель , а розглянемо всі можливі моделі відразу і об'єднати їх як - то в один великий моделі . $\hat{f}_\text{chosen}$ $\hat{f}$ $\hat F$

Звичайно, враховуючи дані, багато з менших моделей можуть бути досить неправдоподібними або недоречними (наприклад, моделі, які передбачають лише одне значення цілі, навіть якщо у вашому наборі даних $D$ є кілька значень цілі ).

У будь-якому випадку потрібно передбачити цільове значення нових зразків, які виводяться з того ж розподілу, що і $x_i$ s. Хороший показник $e$ про продуктивність вашої моделі буде

e (model) = P [f (X) = model (X)],

$e(\text{model}) = P[f(X) = \text{model}(X)]\text{,}$ то є ймовірність того, що ви передбачити справжнє цільове значення для випадкової вибірки

X

$X$ .

Використовуючи формулу Байєса, можна обчислити, яка ймовірність того, що новий зразок $x$ має цільове значення $v$ , враховуючи дані $D$ :

П (v ∣ D) = \sum_{\hat{f}} П (v ∣ \hat{f}) П (\hat{f} ∣ D) .

$P(v\mid D) = \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$ Слід наголосити на цьому

як правило , $P(v\mid \hat{f})$ є або $0$ або $1$ , оскільки є детермінованою функцією , $\hat{f}$ $x$
не звичайно, але майже весь час, що неможливо оцінити $P(\hat{f}\mid D)$ (за винятком вищезгаданих тривіальних випадків),
не звичайно, але майже весь час, число можливих моделей є занадто великим для верхньої суми , які будуть оцінені. $\hat{f}$

Отже, отримати / оцінити $P(v\mid D)$ у більшості випадків дуже важко .

Тепер переходимо до класифікатора Optimal Bayes. При заданому $x$ , вона пророкує значення Так як це найбільш ймовірне значення серед всіх можливих цільових значень , класифікатор Оптимальне Байеса максимізує міру ефективності .

\hat{v} = {аргмакс}_{v} \sum_{\hat{f}} П (v ∣ \hat{f}) П (\hat{f} ∣ D) .

$\hat{v} = \text{argmax}_v \sum_{\hat{f}} P(v\mid \hat{f}) P(\hat{f}\mid D)\text{.}$

v

$v$

e (\hat{f})

$e(\hat{f})$

Ми завжди використовуємо класифікатор Байєса як орієнтир для порівняння продуктивності всіх інших класифікаторів.

Ймовірно, ви використовуєте наївну версію класифікатора Байєса. Це легко здійснити, працює досить добре більшу частину часу, але обчислює лише наївну оцінку $P(v\mid D)$ .

— Антуан
джерело

Чи класифікатор Байєса (не наївний Байєс) такий самий, як Байєс, оптимальний класифікатор ???? і чи є

попередньою ймовірністю?

P (v | f)

$P(v|f)$

— RuiQi

@RuiQi Я не думаю , що є така річ , як в класифікатор Байеса. Мені відомо про наївний класифікатор Байєса та оптимальний класифікатор Байєса.

— Антуан

P (v ∣ \hat{f})

$P(v\mid \hat{f})$

v

$v$

\hat{f}

$\hat{f}$

0

$C_T$ $C_P$

$X$ $X$ $x$

П (С_{Т} = С_{П}) = \int_{все можливе Х} f (х) П (С_{Т} = С_{П} | х) г х

$P(C_T=C_P) = \int_{\text{all possible $X$}} f(x)P(C_T=C_P|x) \text{d}x$

$f(x)$ $X$

$x$

$x$ $P(C_T=C_P|x)$ $x$

— Секст Емпірік
джерело