Існує багато способів проведення класифікації наївних Байєса (NBC). Поширеною технікою в NBC є перекодування значень (змінних) значень на квартілі, таким чином, що значенням, меншим за 25-й перцентиль, присвоюються значення 1, 25-е-50-е a 2, 50-е - 75-е a 3 і більше 75-те перцентил 4. Таким чином, один об'єкт здасть одну кількість у скриньці Q1, Q2, Q3 або Q4. Розрахунки проводяться лише на цих категоричних бункерах. Тоді кількість підрахунків (ймовірностей) базується на кількості вибірок, змінні значення яких знаходяться в межах певного відра. Наприклад, якщо набір об'єктів має дуже високі значення для функції X1, то це призведе до великої кількості підрядів у скриньці для Q4 X1. З іншого боку, якщо інший набір об'єктів має низькі значення для функції X1, то ці об’єкти здадуть багато рахунків у відро для Q1 функції X1.
Це насправді не дуже розумний розрахунок, це скоріше спосіб дискретизації постійних значень для дискретності та експлуатації після цього. Індекс Джині та приріст інформації можна легко обчислити після дискретизації, щоб визначити, які особливості є найбільш інформативними, тобто макс (Джині).
Зауважте, що існує багато способів виконання NBC, і багато з них сильно відрізняються один від одного. Тож вам просто потрібно вказати, який ви реалізували у бесіді чи папері.