Останнім часом виросла величезна кількість літератури, яка обговорює, як витягувати інформацію з писемного тексту. Отже, я просто опишу чотири основні етапи / популярні моделі та їх переваги / недоліки, і таким чином виділю (деякі) основні відмінності (або принаймні те, що, на мою думку, є головними / найважливішими відмінностями).
Ви згадуєте про "найпростіший" підхід, який полягає у кластеризації документів, зіставлення їх із заздалегідь заданим запитом термінів (як у PMI). Однак ці методи лексичного узгодження можуть бути неточними через полісемію (багатозначне значення) та синонімію (кілька слів, що мають подібні значення) одиничних термінів.
Як засіб, латентна семантична індексація ( LSI ) намагається подолати це шляхом відображення термінів і документів у латентний семантичний простір за допомогою сингулярного розкладання значення. Результати LSI - це більш міцні показники значення, ніж окремі терміни. Однак один недолік LSI полягає в тому, що він не має міцного ймовірнісного підґрунтя.
Частково це було вирішено винаходом імовірнісного LSI ( pLSI ). У моделях pLSI кожне слово в документі складається із моделі суміші, визначеної за допомогою багаточленних випадкових змінних (що також дозволяє спільно виникати у вищому порядку, як згадував @sviatoslav hong). Це було важливим кроком вперед у ймовірнісному моделюванні тексту, але було неповним у тому сенсі, що воно не має імовірнісної структури на рівні документів.
Латентне розподілення Діріхле ( LDA ) це полегшує це і стало першою повністю ймовірнісною моделлю для кластеризації тексту. Blei та ін. (2003) показують, що pLSI є максимальною a-posteriori оціненою моделлю LDA відповідно до рівномірного режиму Діріхле.
Зауважимо, що згадані вище моделі (LSI, pLSI, LDA) мають спільне, що вони засновані на припущенні "сумка слів" - тобто, що в документі слова можуть бути обмінні, тобто порядок слів у документі нехтувати. Це припущення про обмінність дає додаткове обгрунтування для LDA щодо інших підходів: якщо припустити, що не тільки слова в документах можуть бути замінені, але й документи, тобто порядок документів у корпусі можна знехтувати, теорема Де Фінеттіконстатує, що будь-який набір змінних випадкових змінних має представлення як розподіл сумішей. Таким чином, якщо передбачається обмін документами та словами в документах, потрібна змішана модель обох. Саме цього, як правило, досягає LDA, але PMI або LSI цього не роблять (і навіть pLSI не такі гарні, як LDA).