Які відмінності між прихованим семантичним аналізом (LSA), прихованим семантичним індексуванням (LSI) та синхронним розкладанням значення (SVD)?

15

Ці терміни багато кидаються разом, але я хотів би знати, що, на вашу думку, є відмінностями, якщо такі є.

Спасибі

pca text-mining svd

12

LSA та LSI в основному використовуються синонімічно, при цьому спільнота пошуку інформації зазвичай посилається на неї як LSI. LSA / LSI використовує SVD для декомпозиції матриці терміна-документа A на матрицю терміна-концепції U, матрицю єдиного значення S та матрицю V-концептуального документа у вигляді: A = USV '. На сторінці вікіпедії є детальний опис прихованого семантичного індексування .

— чорне дерево1
джерело

8

Зокрема, хоча LSA та LSI використовують SVD, щоб зробити свою магію, існує обчислювально та концептуально простіший метод, який називається HAL (аналог мови гіперпростору), який просіює текст, відслідковуючи попередній та наступний контексти. Вектори витягуються з цих (часто зважених) матриць спільного виникнення, а конкретні слова вибираються для індексації семантичного простору. Багато в чому мені дано зрозуміти, що вона працює так само, як і LSA, не вимагаючи математично / концептуально складного кроку SVD. Докладніше див. У Lund & Burgess, 1996.

— russellpierce
джерело

4

... рекапітуляція попередніх робіт Фінча і Чатера (1992, 1994), Шютце (1993) та ін. HAL, LSA та інші твори попереднього рівня мистецтва шляхом створення міри подібності слів шляхом обчислення їх контекстної подібності. (Це подібність Шепхарда до "другого порядку": подібність "першого порядку" - це коли слово a виникає біля слова b; подібність "другого порядку" - це те, що слово a виникає поруч із тими ж словами, що і слово b).

— кон'югатпріор

3

Порівняння та порівняння: Для LSA контекст є повним документом. Для HAL та інших це текстове вікно, що оточує цільове слово. LSA вимірює відстань у лінійному підпросторі, витягнутому за допомогою SVD / PCA, а інший стосується відстаней у вихідному просторі навколишніх слів.

— кон'югатпріор

6

NMF і SVD - це алгоритми матричної факторизації. У Вікіпедії є відповідна інформація про NMF .

$A^*A=A A^*$

Інші відповіді охопили LSI / LSA ...

— Емре
джерело

це повинна бути матриця коваріації, правда? не кореляційна матриця.

— Рафаель

Так, якщо спочатку ви не зосереджуєте свої змінні.

— Емре

після нормалізації змінних вона стає матрицею кореляції?

— Рафаель

Нормалізація - це центрування за допомогою масштабування, тому це інакше.

— Емре