LSA проти PCA (кластеризація документів)


25

Я досліджую різні методи, що використовуються в кластеризації документів, і я хотів би усунути деякі сумніви щодо PCA (аналіз основних компонентів) та LSA (латентний семантичний аналіз).

Перше - які відмінності між ними? Я знаю, що в PCA розкладання SVD застосовується до терміна-коваріаційної матриці, тоді як в LSA - матриця терміна-документа. Є ще щось?

По-друге - яка їх роль у процедурі кластеризації документів? З того, що я читав до цього часу, я роблю висновок, що їх мета - зменшення розмірності, зменшення шуму та включення співвідношень між термінами у подання. Після виконання PCA або LSA, традиційні алгоритми, такі як k-засоби або агломераційні методи, застосовуються на просторі скороченого терміна і застосовуються типові заходи подібності, як косинусна відстань. Будь ласка, виправте мене, якщо я помиляюся.

По-третє - чи має значення, чи нормалізуються терміни векторів TF / IDF перед застосуванням PCA / LSA чи ні? І чи повинні вони після цього знову нормалізуватися?

Четверте - скажімо, я здійснив деяку кластеризацію на терміні простору, скороченого LSA / PCA. Тепер, як слід призначити мітки кластерам результатів? Оскільки розміри не відповідають фактичним словам, це досить складне питання. Єдина ідея, яка мені спадає на думку, - це обчислення центроїдів для кожного кластера, використовуючи оригінальні термінні вектори та вибираючи терміни з максимальною вагою, але це не дуже ефективно. Чи є якісь конкретні рішення цієї проблеми? Я нічого не зміг знайти.

Я буду дуже вдячний за роз’яснення цих питань.


LSA або LSI: однакові чи різні? Якщо ви маєте на увазі LSI = приховану семантичну індексацію, будь ласка, виправте та стандартизуйте.
Нік Кокс

3
Чи є LSI та LSA дві різні речі? Я думав, що вони рівноцінні.
користувач1315305

1
Я поняття не маю; сенс (будь ласка) використовувати один термін для однієї речі, а не два; інакше ваше питання зрозуміти ще складніше.
Нік Кокс

Гаразд, я виправив це alredy. Дякуємо, що
вказали

3
У Вікіпедії створюється враження, що LSA = LSI. Але LSI - це аналіз листування (CA). CA - це термін статистичного аналізу, як PCA, тоді як LSI / LSA - термін видобутку тексту. Отже, шукайте статті, що порівнюють PCA та CA.
ttnphns

Відповіді:


8
  1. PCA і LSA - це обидва аналізи, в яких використовується SVD. PCA є загальним класом аналізу і в принципі може застосовуватися до перелічених текстових корпусів різними способами. На відміну від LSA - це дуже чітко визначений засіб аналізу та скорочення тексту. Обидва використовують ідею, що сенс можна витягнути з контексту. У LSA контекст подається в числах через матрицю терміна-документа. У PCA запропонований контекст надається в числах шляхом надання термінової матриці коваріації (деталі генерації якої, ймовірно, можуть розповісти вам набагато більше про зв’язок між вашим PCA та LSA). Ви можете подивитися тут, щоб дізнатися більше.
  2. Ви в основному на цьому шляху. Точні причини їх використання залежать від контексту та цілей людини, яка грає з даними.
  3. Відповідь, ймовірно, залежатиме від виконання процедури, яку ви використовуєте.
  4. Обережно і з великим мистецтвом. Більшість вважає розміри цих смислових моделей непереборними. Зауважте, що ви майже напевно очікуєте, що їх буде більше, ніж одне основне вимір. Коли в факторному аналізі є більше одного виміру, ми обертаємо факторний розчин, щоб отримати коефіцієнти, що можна зрозуміти. Однак чомусь це зазвичай не робиться для цих моделей. Ваш підхід звучить як принциповий спосіб розпочати своє мистецтво ... хоча я мав би менше, ніж певне, масштабування між розмірами достатньо подібне, щоб довіритися рішенню аналізу кластерного типу. Якщо ви хочете пограти зі значенням, ви можете також розглянути більш простий підхід, при якому вектори мають прямий зв’язок з конкретними словами, наприклад, HAL .

6

LSI обчислюється на матриці термін-документ, тоді як PCA обчислюється на матриці коваріації, що означає, що LSI намагається знайти найкращий лінійний підпростір для опису набору даних, тоді як PCA намагається знайти найкращий паралельний лінійний підпростір.


4
Нік, ви могли б надати більше деталей про різницю між найкращим лінійним підпростором та найкращим паралельним лінійним підпростором? Це пов’язано з ортогональністю? Чи варто ставити це як нове запитання?
russellpierce

1
Найкраще в якому сенсі? Мінімізація норми Фробініуса щодо помилки реконструкції? У такому випадку, звичайно, звучить мені PCA.
Ендрю М

2

Просто деяке продовження відповіді russellpierce.

1) По суті LSA - це PCA, застосований до текстових даних. Під час використання SVD для PCA застосовується не до матриці коваріації, а безпосередньо до матриці вибірки характеристик, яка є лише матрицею терміна-документа в LSA. Різниця в тому, що PCA часто вимагає функціональної нормалізації даних, тоді як LSA цього не робить.

Є чудова лекція Ендрю Нґ, яка ілюструє зв’язки між PCA та LSA.

2/3) Оскільки дані документа мають різну довжину, зазвичай корисно нормалізувати величину. Тут нормалізована вибіркова нормалізація не має функціональної нормалізації. На практиці мені було корисно нормалізувати як до, так і після LSI.

Якщо метрика алгоритму кластеризації не залежить від величини (скажімо, відстань косинуса), то останній крок нормалізації можна опустити.

4) Думаю, що це взагалі складна проблема отримати значущі мітки з кластерів. Деякі люди витягують терміни / фрази, які максимізують різницю в розподілі між корпусом і кластером. Ще один спосіб - використання напівпідконтрольного кластеризації з попередньо визначеними мітками.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.