Тематичні моделі та методи спільного виникнення слів

Популярні моделі тем, як LDA, як правило, кластеризують слова, які мають тенденцію спільно зустрічатися в одну тему (кластер).

У чому полягає основна відмінність таких моделей тематики від інших простих підходів, заснованих на кластеризації на основі спільного виникнення, таких як PMI? (PMI позначає точку взаємної інформації, і вона використовується для ідентифікації слів, які співпадають із даним словом.)

— kanzen_master
джерело

Останнім часом виросла величезна кількість літератури, яка обговорює, як витягувати інформацію з писемного тексту. Отже, я просто опишу чотири основні етапи / популярні моделі та їх переваги / недоліки, і таким чином виділю (деякі) основні відмінності (або принаймні те, що, на мою думку, є головними / найважливішими відмінностями).

Ви згадуєте про "найпростіший" підхід, який полягає у кластеризації документів, зіставлення їх із заздалегідь заданим запитом термінів (як у PMI). Однак ці методи лексичного узгодження можуть бути неточними через полісемію (багатозначне значення) та синонімію (кілька слів, що мають подібні значення) одиничних термінів.

Як засіб, латентна семантична індексація ( LSI ) намагається подолати це шляхом відображення термінів і документів у латентний семантичний простір за допомогою сингулярного розкладання значення. Результати LSI - це більш міцні показники значення, ніж окремі терміни. Однак один недолік LSI полягає в тому, що він не має міцного ймовірнісного підґрунтя.

Частково це було вирішено винаходом імовірнісного LSI ( pLSI ). У моделях pLSI кожне слово в документі складається із моделі суміші, визначеної за допомогою багаточленних випадкових змінних (що також дозволяє спільно виникати у вищому порядку, як згадував @sviatoslav hong). Це було важливим кроком вперед у ймовірнісному моделюванні тексту, але було неповним у тому сенсі, що воно не має імовірнісної структури на рівні документів.

Латентне розподілення Діріхле ( LDA ) це полегшує це і стало першою повністю ймовірнісною моделлю для кластеризації тексту. Blei та ін. (2003) показують, що pLSI є максимальною a-posteriori оціненою моделлю LDA відповідно до рівномірного режиму Діріхле.

Зауважимо, що згадані вище моделі (LSI, pLSI, LDA) мають спільне, що вони засновані на припущенні "сумка слів" - тобто, що в документі слова можуть бути обмінні, тобто порядок слів у документі нехтувати. Це припущення про обмінність дає додаткове обгрунтування для LDA щодо інших підходів: якщо припустити, що не тільки слова в документах можуть бути замінені, але й документи, тобто порядок документів у корпусі можна знехтувати, теорема Де Фінеттіконстатує, що будь-який набір змінних випадкових змінних має представлення як розподіл сумішей. Таким чином, якщо передбачається обмін документами та словами в документах, потрібна змішана модель обох. Саме цього, як правило, досягає LDA, але PMI або LSI цього не роблять (і навіть pLSI не такі гарні, як LDA).

— Момо
джерело

1/2 Дякую! Дуже ясно. Дозвольте перевірити, чи мав я це право: У LSI документи формуються сумішшю слів (без поняття теми), а слова та документи відображаються на семантичний простір нижчого розміру за допомогою SVD. Оскільки слова з подібним семантичним значенням відображені ближче, вони можуть мати справу з синонімією, але мають проблеми з полісемією. pLSI вирішує проблему полісемії, вводячи поняття тем. У pLSI слова складаються з багаточленного розподілу слів (тем), одне і те ж слово може належати до декількох тем, а документ має декілька тем, хоча це не моделюється явно.

— kanzen_master

Я думаю, як правило, ви правильно це зробите. Деякі менші виправлення: вважається, що LSI працює нормально як з полісемією, так і з синомією. pLSI - це в основному формулювання для досягнення того, до чого прагне LSI за допомогою інструментів аналізу прихованих класів / моделей суміші та ймовірності, а не просто лінійної алгебри. LDA порівняно з pLSI є повністю генеративною моделлю, визначаючи розподіл теми за документом.

— Момо

Щодо ваших точок щодо подолання та прогнозування, я недостатньо обізнаний для кваліфікованого твердження. Але, маючи на увазі, я не розумію, чому LDA має бути менш схильним до переозброєння, ніж pLSI (оскільки LDA в основному просто додає до моделі pLSI). Обидва не мають вбудованої корекції для надмірного опрацювання тощо. "Прогнозування" нових документів дійсно може бути простішим або здійсненим з цілком генеративної моделлю на зразок LDA, див. Stats.stackexchange.com/questions/9315/… Але я б бачив LDA як непідконтрольну, описову модель.

— Момо

Знову дякую! Лише 2 заключних запитання: (1) Що стосується полісемії, у цьому PDF-файлі на кінці сторінки 3 Гофман зазначає, що одна з відмінностей PLSI порівняно з LSI є полісемією, оскільки одне і те ж слово може належати до різних розподілів слів (тем); саме тому я подумав, що LSI не працює з полісемією. (2) Що стосується перевиконання, у цьому блозі зазначено, що лінійне збільшення параметрів говорить про те, що модель схильна до перевиконання. Як ти гадаєш ?

— kanzen_master

Без проблем. Ви вже багато чого знаєте про ці речі, тож я теж довідаюсь речі. ad (1) Ну, як завжди, це залежить: LSI може обробляти полісемію завдяки лінійному поєднанню термінів, як це зроблено в PCA. Це краще робити з синонімами, але певною мірою також з полісемією. В основному багатозначні слова, схожі на додані компоненти слів, що мають подібне значення. Однак це робить це набагато менше, ніж pLSI, оскільки кожне виникнення слова, представленого як одна точка у просторі. Отже, представлення слова - це середнє значення всіх значень слова у корпусі.

— Момо

LDA може зафіксувати співвідношення термінів вищого порядку (через припущення, що кожна тема є багаточленним розподілом за термінами), що неможливо просто обчисливши PMI між термінами.

— Ляньцзі Гонг
джерело

Спасибі! Яке визначення "високого порядку спільних подій"?

— kanzen_master

Я можу запізнитися на 3 роки, але я хочу перевірити ваше запитання на прикладі "високого порядку спільних зустрічей".

В основному, якщо термін t1 співпадає з терміном t2, який відбувається спільно з терміном t3, то термін t1 є спільним виникненням 2-го порядку з терміном t3. Ви можете перейти до вищого порядку, якщо хочете, але в кінці ви керуєте тим, наскільки мають бути схожі два слова.

— suthee
джерело