Я використовую приховану семантичну індексацію, щоб знайти схожість між документами ( спасибі, JMS! )
Після зменшення розміру я спробував кластеризувати k-засоби, щоб згрупувати документи в кластери, що працює дуже добре. Але я хотів би піти трохи далі і візуалізувати документи як набір вузлів, де відстань між будь-якими двома вузлами обернено пропорційна їх схожості (вузли, які дуже схожі, близькі між собою).
Мене вражає, що я не можу точно зменшити матрицю подібності до двовимірного графіка, оскільки мої дані> 2 виміри. Тож перше моє запитання: чи є стандартний спосіб це зробити?
Чи можу я просто зменшити свої дані до двох вимірів, а потім побудувати їх як вісь X і Y, і чи вистачить цього для групи ~ 100-200 документів? Якщо це рішення, чи краще зменшити мої дані до 2-х вимірів з самого початку, або є якийсь спосіб вибрати два "найкращі" виміри з моїх багатовимірних даних?
Я використовую Python та бібліотеку gensim, якщо це має значення.