Парель між LSA та pLSA


9

В оригінальній статті pLSA автор Томас Гофман провів паралель між структурами даних pLSA та LSA, яку я хотів би обговорити з вами.

Фон:

Здійснюючи натхнення для отримання інформації, припустимо, у нас є колекція документів та словниковий запас термінівN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

Корпус може бути представлено у вигляді матриці cooccurences.XN×M

У латентному Semantic аналізів по СВДА матриціX розбивається на три матриці:

X=UΣVT
де Σ=diag{σ1,...,σs}і - значення одниниσiX і s є званням X.

Апроксимація LSA X

X^=U^Σ^VT^
потім обчислюється обрізання трьох матриць до деякого рівня k<s, як показано на малюнку:

введіть тут опис зображення

У pLSA виберіть фіксований набір тем (приховані змінні) Z={z1,z2,...,zZ} наближення X обчислюється як:

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T
де три матриці - це ті, які максимально збільшують вірогідність моделі.

Актуальне питання:

Автор констатує, що ці відносини існують:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

і що вирішальною відмінністю між LSA та pLSA є мета, яка використовується для визначення оптимального розкладання / наближення.

Я не впевнений, що він правий, оскільки вважаю, що дві матриці X^ представляють різні поняття: у LSA - це наближення кількості часу, коли термін з’являється в документі, а в pLSA - (оціночна) ймовірність появи терміна в документі.

Чи можете ви допомогти мені уточнити цей момент?

Крім того, припустимо, ми обчислили дві моделі на корпусі, давши новий документ d, в LSA я використовую для обчислення наближення як:

d^=d×V×VT
  1. Чи завжди це дійсно?
  2. Чому я не отримую змістовного результату, застосовуючи ту саму процедуру до pLSA?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Дякую.

Відповіді:


12

Для простоти я навожу тут зв’язок між LSA та негативною матричною факторизацією (NMF), а потім показую, як проста модифікація функції витрат призводить до pLSA. Як було сказано раніше, LSA та pLSA - це обидва методи факторизації в тому сенсі, що до нормалізації рядків і стовпців низьке рангове розкладання матриці терміна документа:

X=UΣD

з використанням попередніх позначень. Простіше кажучи, матриця терміна документа може бути записана як добуток двох матриць:

X=ABT

де AN×s і BM×s. Для LSA відповідність попередній формулі отримують шляхом встановлення A=UΣ і B=VΣ.

Простий спосіб зрозуміти різницю між LSA та NMF - це використовувати їх геометричну інтерпретацію:

  • LSA - це рішення:

    minA,BXABTF2,
  • NMF-L2 є рішенням:

    minA0,B0XABTF2,
  • NMF-KL еквівалентний pLSA і є рішенням:

    minA0,B0KL(X||ABT).

де KL(X||Y)=ijxijlogxijyij- розбіжність Куллбека-Лейблера між матрицямиX і Y. Неважко помітити, що всі проблеми, описані вище, не мають унікального рішення, оскільки можна розмножитисяA за додатним числом і ділимо Bна те саме число, щоб отримати одне і те ж об'єктивне значення. Отже, - у випадку LSA люди зазвичай обирають ортогональну основу, відсортовану за зменшенням власних значень. Це пояснюється розкладанням SVD та визначає рішення LSA, але будь-який інший вибір був би можливим, оскільки він не впливає на більшість операцій (подібність косинусу, формула згладжування, згадана вище тощо). - у випадку НМФ ортогональне розкладання не можливе, але рядкиA зазвичай обмежуються сумою до одиниці, оскільки вона має пряму ймовірнісну інтерпретацію як p(zk|di). Якщо крім того, рядиX нормалізуються (тобто сума до одиниці), потім рядки B повинні підсумовувати один, що веде до ймовірнісного тлумачення p(fj|zk). Існує незначна різниця щодо версії pLSA, наведеної у вищезазначеному питанні, оскільки стовпціA обмежуються сумою до одиниці, так що значення в A є p(di|zk), але різниця - це лише зміна параметризації, проблема залишається тією ж.

Тепер, щоб відповісти на початкове запитання, є щось тонке в різниці між LSA та pLSA (та іншими алгоритмами NMF): обмеження негативу викликають "кластерний ефект", який не є дійсним у класичному випадку LSA, оскільки значення сингулярності Розчин для декомпозиції має інтаріантний обертання. Обмеження, що не мають негативу, якимось чином порушують цю обертальну інваріантність і надають чинникам якесь смислове значення (теми в текстовому аналізі). Перший документ, який пояснив це:

Донохо, Девід Л. та Вікторія С. Стодден. "Коли факторизація негативної матриці дає правильне розкладання на частини?" Успіхи систем нейронної обробки інформації 16: матеріали конференції 2003 року. MIT Press, 2004. [посилання]

В іншому випадку тут описано відношення між PLSA та NMF:

Дінг, Кріс, Дао Лі та Вей Пен. "Про еквівалентність між негативною матричною факторизацією та ймовірнісним прихованим семантичним індексуванням". Обчислювальна статистика та аналіз даних 52.8 (2008): 3913-3927. [посилання]

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.