У текстових документах функції векторів можуть бути дуже великими розмірами та рідкісними під будь-яким із стандартних зображень (мішок слів, TF-IDF тощо). Вимірювання відстаней безпосередньо під таким поданням не може бути надійним, оскільки відомо, що за дуже високих розмірів відстань між будь-якими двома точками починає виглядати однаково. Один із способів вирішити це - зменшити розмірність даних за допомогою PCA або LSA ( Latent Semantic Analysis ; також відомий як Latent Semantic Indexing ), а потім виміряти відстані в новому просторі. Використовувати щось на зразок LSA над PCA є вигідним, оскільки воно може дати змістовне уявлення з точки зору "смислових понять", крім вимірювання відстаней у просторі нижчих розмірів.
Порівняння документів на основі розподілу ймовірностей зазвичай проводиться спочатку обчисленням тематичного розподілу кожного документа (використовуючи щось на зразок прихованого розподілу Діріхле ), а потім обчисленням певного розбіжності (наприклад, розбіжності KL) між тематичними розподілами пари документів. Зрештою, це схоже на те, щоб спочатку зробити LSA, а потім виміряти відстані в просторі LSA, використовуючи KL-дивергенцію між векторами (замість косинусної подібності).
Дивергенція KL - це міра відстані для порівняння розподілів, тому може бути кращим, якщо представлення документа відбувається з точки зору деякого розповсюдження (що часто насправді трапляється - наприклад, документи, представлені у вигляді розподілу за темами, як у LDA). Також зауважте, що при такому поданні записи у векторі ознак будуть дорівнювати одиниці (оскільки ви в основному трактуєте документ як розподіл за темами або смисловими поняттями).
Також дивіться пов’язану нитку тут .