Я хочу використовувати Latent Dirichlet Allocation для проекту, і я використовую Python з бібліотекою gensim. Знайшовши теми, я хотів би згрупувати документи за допомогою такого алгоритму, як k-засоби (в ідеалі я хотів би використовувати хороший для перекриття кластерів, тому будь-яка рекомендація вітається). Мені вдалося отримати теми, але вони є у формі:
0,041 * міністр + 0,041 * ключ + 0,041 * моменти + 0,041 * суперечливий + 0,041 * прайм
Для того, щоб застосувати алгоритм кластеризації та виправити мене, якщо я помиляюся, я вважаю, що я повинен знайти спосіб представити кожне слово як число, використовуючи або tfidf, або word2vec.
Чи є у вас ідеї, як я міг би "зняти" текстову інформацію зі списку, щоб це зробити, а потім розмістити їх назад, щоб зробити відповідне множення?
Наприклад, так, як я бачу це, якщо слово Міністр має tfidf вагою 0,042 і так далі для будь-якого іншого слова в межах тієї ж теми, я повинен був обчислити щось на кшталт:
0,041 * 0,42 + ... + 0,041 * tfidf (Prime) і отримайте результат, який буде згодом використаний для кластеризації результатів.
Спасибі за ваш час.