Традиційним підходом побудови функцій для видобутку тексту є підхід із пакету слів, який можна вдосконалити, використовуючи tf-idf для налаштування вектора ознак, що характеризує даний текстовий документ. В даний час я намагаюся використовувати біграмову мовну модель або (N-грам) для побудови функціонального вектора, але не знаю, як це зробити? Чи можемо ми просто дотримуватися підходу мішкових слів, тобто обчислювати частоту підрахунків у біграмі замість слів та посилювати її за допомогою схеми зважування tf-idf?