Як Naive Bayes є лінійним класифікатором?


31

Я бачив інший потік тут , але я не думаю , що відповідь задовольнила актуальне питання. Що я постійно читав, це те, що Naive Bayes є лінійним класифікатором (наприклад, тут ) (таким, що він малює лінійну межу рішення), використовуючи демонстрацію шансів журналу.

Однак я імітував дві хмари Гаусса і встановив межу рішення і отримав результати як такі (бібліотека e1071 в r, використовуючи naiveBayes ()) 1- зелений, 0 - червоний

Як ми бачимо, межа прийняття рішення є нелінійною. Чи намагається сказати, що параметри (умовні ймовірності) є лінійною комбінацією в просторі журналу, а не сказати, що сам класифікатор розділяє дані лінійно?


як ви створили межу прийняття рішень? я підозрюю, що це стосується вашої підгонки, а не істинної межі рішення класифікатора. зазвичай можна створити межу рішення шляхом обчислення рішення у кожній окремій точці вашого квадранта.
seanv507

Ось що я і зробив, я взяв два діапазони X = [Min (x), Max (x)] та Y = [Min (Y), Max (Y)]] з проміжком 0,1. Потім я встановив усі ці точки даних підготовленим класифікатором і виявив такі бали, що шанси журналу були між -0,05 та 0,05
Кевін Пей

Відповіді:


30

В основному наївний класифікатор Байєса не є лінійним, але якщо ймовірність факторів походить із експоненціальних родин , наївний класифікатор Байєса відповідає лінійному класифікатору у певному просторі ознак. Ось як це бачити.p(xic)

Ви можете написати будь-який наївний класифікатор Байєса як *

p(c=1x)=σ(ilogp(xic=1)p(xic=0)+logp(c=1)p(c=0)),

де - логістична функція . Якщо p ( x ic ) походить із експоненціальної родини, ми можемо записати це якσp(xic)

p(xic)=hi(xi)exp(uicϕi(xi)Ai(uic)),

і отже

p(c=1x)=σ(iwiϕi(xi)+b),

де

wi=ui1ui0,b=logp(c=1)p(c=0)i(Ai(ui1)Ai(ui0)).

Зауважимо, що це схоже на логістичну регресію - лінійний класифікатор - у просторі функцій, визначеному . Для більш ніж двох класів ми аналогічно отримуємо багаточленну логістичну (або софтмакс) регресію .ϕi

Якщо - гауссова, тоді ϕ i ( x i ) = ( x i , x 2 i ), і ми повинні мати w i 1p(xic)ϕi(xi)=(xi,xi2)

wi1=σ12μ1σ02μ0,wi2=2σ022σ12,bi=logσ0logσ1,

припустимо, що .p(c=1)=p(c=0)=12


* Ось як отримати цей результат:

p(c=1x)=p(xc=1)p(c=1)p(xc=1)p(c=1)+p(xc=0)p(c=0)=11+p(xc=0)p(c=0)p(xc=1)p(c=1)=11+exp(logp(xc=1)p(c=1)p(xc=0)p(c=0))=σ(ilogp(xic=1)p(xic=0)+logp(c=1)p(c=0))

Дякую за виведення, яке я зараз розумію, чи можете ви пояснити позначення в рівнянні 2 та нижче? (u, h (x_i), phi (x_i) тощо) Чи P (x_i | c) під експонентною сім'єю просто просто приймає значення з pdf?
Кевін Пей

uϕ

1
ϕ(x)=(x,x2)w

Я вважаю цю відповідь оманливою: як уже вказувалося в коментарі, і відповідь трохи нижче, наївний Гаусс Байєс не лінійний у первинному просторі функцій, а в нелінійному перетворенні. Отже, це не є звичайним лінійним класифікатором.
Gael Varoquaux

p(xi|c)ϕi(xi)=(xi,xi2)T(x)x/σ

8

Він лінійний, лише якщо матриці умовної дисперсії класу однакові для обох класів. Щоб побачити це, запишіть раціон плакатів журналу, і ви отримаєте з нього лише лінійну функцію, якщо відповідні відхилення будуть однаковими. Інакше це квадратично.


3

Я хотів би додати ще один додатковий момент: причина певної плутанини полягає в тому, що означає виконувати "класифікацію наївних Байєсів".

Під широкою темою "Гауссовий дискримінантний аналіз (GDA)" є кілька методик: QDA, LDA, GNB та DLDA (квадратичний DA, лінійний DA, гауссові наївні затоки, діагональ LDA). [ОНОВЛЕНО] LDA та DLDA повинні бути лінійними в просторі даних провісників. (Див., Наприклад, Мерфі , 4.2, стор. 101 для DA та стор. 82 для NB. Примітка. GNB не обов'язково лінійний. Дискретний NB (для якого використовується багаточленний розподіл під капотом) лінійний. Ви також можете перевірити Дуду , Харт і Лелека розділ 2.6). QDA є квадратичним, як вказували інші відповіді (і, на мою думку, саме це відбувається у вашій графіці - див. Нижче).

Σc

  • Σc
  • Σc=Σ
  • Σc=diagc
  • Σc=diag

У той час як документи для e1071 стверджують, що він набуває класово-умовної незалежності (тобто, GNB), я підозрюю, що він справді робить QDA. Деякі люди пов'язують "наївних Байєсів" (роблячи припущення про незалежність) з "простим баєсовським правилом класифікації". Усі методи GDA отримані з пізніших; але лише GNB та DLDA використовують попереднє.

Велике попередження: я не читав вихідний код e1071, щоб підтвердити, що він робить.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.