Я досліджую різні методи, що використовуються в кластеризації документів, і я хотів би усунути деякі сумніви щодо PCA (аналіз основних компонентів) та LSA (латентний семантичний аналіз).
Перше - які відмінності між ними? Я знаю, що в PCA розкладання SVD застосовується до терміна-коваріаційної матриці, тоді як в LSA - матриця терміна-документа. Є ще щось?
По-друге - яка їх роль у процедурі кластеризації документів? З того, що я читав до цього часу, я роблю висновок, що їх мета - зменшення розмірності, зменшення шуму та включення співвідношень між термінами у подання. Після виконання PCA або LSA, традиційні алгоритми, такі як k-засоби або агломераційні методи, застосовуються на просторі скороченого терміна і застосовуються типові заходи подібності, як косинусна відстань. Будь ласка, виправте мене, якщо я помиляюся.
По-третє - чи має значення, чи нормалізуються терміни векторів TF / IDF перед застосуванням PCA / LSA чи ні? І чи повинні вони після цього знову нормалізуватися?
Четверте - скажімо, я здійснив деяку кластеризацію на терміні простору, скороченого LSA / PCA. Тепер, як слід призначити мітки кластерам результатів? Оскільки розміри не відповідають фактичним словам, це досить складне питання. Єдина ідея, яка мені спадає на думку, - це обчислення центроїдів для кожного кластера, використовуючи оригінальні термінні вектори та вибираючи терміни з максимальною вагою, але це не дуже ефективно. Чи є якісь конкретні рішення цієї проблеми? Я нічого не зміг знайти.
Я буду дуже вдячний за роз’яснення цих питань.