Як Naive Bayes працює з безперервними змінними?

14

На моє (дуже базове) розуміння, Naive Bayes оцінює ймовірності на основі частоти класів кожної функції у навчальних даних. Але як він обчислює частоту безперервних змінних? І коли робите прогнозування, як воно класифікує нове спостереження, яке може не мати однакових значень у будь-якого спостереження у навчальному наборі? Він використовує якусь міру відстані чи знаходить 1NN?

— xyy
джерело

Ось пліч-о-пліч порівняння між дискретними та безперервними Naive Bayes: datascience.stackexchange.com/a/47031/67328

— Esmailian

10

Існує багато способів проведення класифікації наївних Байєса (NBC). Поширеною технікою в NBC є перекодування значень (змінних) значень на квартілі, таким чином, що значенням, меншим за 25-й перцентиль, присвоюються значення 1, 25-е-50-е a 2, 50-е - 75-е a 3 і більше 75-те перцентил 4. Таким чином, один об'єкт здасть одну кількість у скриньці Q1, Q2, Q3 або Q4. Розрахунки проводяться лише на цих категоричних бункерах. Тоді кількість підрахунків (ймовірностей) базується на кількості вибірок, змінні значення яких знаходяться в межах певного відра. Наприклад, якщо набір об'єктів має дуже високі значення для функції X1, то це призведе до великої кількості підрядів у скриньці для Q4 X1. З іншого боку, якщо інший набір об'єктів має низькі значення для функції X1, то ці об’єкти здадуть багато рахунків у відро для Q1 функції X1.

Це насправді не дуже розумний розрахунок, це скоріше спосіб дискретизації постійних значень для дискретності та експлуатації після цього. Індекс Джині та приріст інформації можна легко обчислити після дискретизації, щоб визначити, які особливості є найбільш інформативними, тобто макс (Джині).

Зауважте, що існує багато способів виконання NBC, і багато з них сильно відрізняються один від одного. Тож вам просто потрібно вказати, який ви реалізували у бесіді чи папері.

— wrktsj
джерело

2

Серце Наївного Байєса - це героїчне умовне припущення:

P (x ∣ X, C) = P (x ∣ C)

$P(x \mid X, C) = P(x \mid C)$

Ні в якому разі не повинно бути дискретним. Наприклад, Наївний Байєс Гаусса передбачає, що кожна категорія має різне середнє значення та дисперсію: щільність . $x$ $C$ $p(x \mid C = i) = \phi(\mu_i, \sigma^2_i)$

Існують різні способи оцінки параметрів, але, як правило, можна:

Використовуйте максимальну ймовірність із міченими даними. (У випадку нормального розподілу максимальна оцінка правдоподібності середнього значення та дисперсії - це в основному середнє значення вибірки та дисперсія вибірки.)
Щось на зразок алгоритму ЕМ з неозначеними даними.

— Меттью Ганн
джерело