Тематичні моделі для коротких документів

14

Натхненний цим питанням , мені цікаво, чи зроблена якась робота над тематичними моделями для великих збірок надзвичайно коротких текстів. Моя інтуїція полягає в тому, що Twitter повинен бути природним натхненником для таких моделей. Однак, з деяких обмежених експериментів, схоже, що стандартні тематичні моделі (LDA тощо) на цих даних досить погано працюють.

Хтось там знає про якусь роботу, яка була виконана в цій галузі? У цьому документі йдеться про застосування LDA у Twitter, але мені дуже цікаво, чи існують інші алгоритми, які краще працюють у контексті короткого документа.

— Мартін О'Лірі
джерело

2

Twitter є особливо складним набором даних для моделювання тем не тільки через малий розмір "документів", але і через тип тексту. Люди схильні використовувати різні скорочення текстових повідомлень, що ще більше ускладнює виявлення спільних випадків.

— Нік

Перегляньте список хороших робіт та відповідні вихідні коди для моделювання тем на Твітах за

— NQD

7

Це пізня відповідь, але вона може бути корисною для інших людей, які шукають відповідні дослідження та інструменти для цієї проблеми:

Weiwei Guo з Columbia реалізував код для моделювання темнотекстових тем. Він описав реалізацію в роботі "Моделювання вироків у латентному просторі" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ), а код доступний тут: http: // www .cs.columbia.edu / ~ weiwei / code.html
Хоча це не тематичне моделювання, якщо у вас є завдання класифікації, що включає короткі фрагменти текстів, ви можете використовувати LibShortText. З їх опису веб-сайту

"LibShortText - це інструмент з відкритим кодом для класифікації та аналізу короткого тексту. Він може обробляти класифікацію, наприклад, заголовків, питань, пропозицій та коротких повідомлень ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— ДПС
джерело

6

Хоча я не надто добре знайомий з його роботою, я знаю, що Якоб Айзенштейн робив роботу в аналізі тексту та графічних моделях у даних Twitter. Зокрема, у цій статті описано застосування моделювання тем у твіттерних даних та мікроблогах.

Редагувати: насправді, прочитавши документ трохи більше, вони заявляють:

Однак середнє повідомлення у Twitter - це лише шістнадцять жетонів слів, що занадто рідко для традиційного моделювання тем; натомість ми зібрали всі повідомлення певного користувача в один документ.

Тож, можливо, саме цей документ може не допомогти, але, можливо, інші публікації Айзенштейна можуть привести вас у правильному напрямку.

— Хуніє
джерело

6

Нещодавній документ під назвою " модель біттерми для короткого тексту " (WWW13) досяг певного прогресу в цій темі, і ось його код

— Сяохуй Ян
джерело

2

Я підтверджую, що BiTerm LDA працював досить добре для моделювання тем коротких висловлювань (3-8 слів) та подальшої класифікації.

— Владислав Довгалеч