Я намагаюся виконати кластеризацію на рівні документа. Я сконструював частотну матрицю терміна-документ і намагаюся кластеризувати ці великі розмірні вектори за допомогою k-засобів. Замість того, щоб безпосередньо кластеризувати, я спершу застосував сингулярний векторний розпад LSA (Latent Semantic Analysis) для отримання матриць U, S, Vt, вибрав відповідний поріг за допомогою діаграми екрана та застосував кластеризацію на зменшених матрицях (зокрема Vt, оскільки це дає мені інформацію про концепцію документа), яка, здавалося, дає хороші результати.
Я чув, як деякі люди кажуть, що SVD (сингулярне розкладання вектора) є кластеризацією (за допомогою вимірювання подібності косинусу тощо) і не був впевнений, чи зможу я застосувати k-засоби на виході SVD. Я вважав, що це логічно правильно, тому що SVD - техніка зменшення розмірності, дає мені купу нових векторів. k-означає, з іншого боку, візьме кількість кластерів як вхідний і розділить ці вектори на вказану кількість кластерів. Чи є ця процедура хибною чи є шляхи, за допомогою яких це можна вдосконалити? Будь-які пропозиції?