Впровадження наївних баїв

Я реалізую алгоритм Naive Bayes для категоризації тексту з лаплакійським згладжуванням. Проблема, яку я маю, полягає в тому, що ймовірність наближається до нуля, тому що я множу багато дрібних дробів. Тому ймовірність зрештою приводить до нуля. Це тому, що в документах та навчальних наборах є кілька слів.

Через це я не в змозі класифікувати тексти. Чи є спосіб я подолати цю проблему? Чи роблю я щось не так у своїй реалізації?

— Сем
джерело

... Ви могли уникнути арифметики з плаваючою комою.

msdn.microsoft.com/en-us/magazine/jj891056.aspx Тут ви знайдете просту відповідь.

— Рошан Мехта

\log \prod_{i = 1}^{n} p_{i} = \sum_{i = 1}^{n} \log p_{i} .

$\log \prod_{i=1}^n p_i = \sum_{i=1}^n \log p_i.$

$p$ $p_0 \in [1,2)$ $x$ $p = p_0 2^x$

— Юваль Фільм
джерело

Також корисно відзначити трюк logsumexp в цьому контексті: en.wikipedia.org/wiki/LogSumExp

— побіжно