Тематичні моделі для коротких документів


14

Натхненний цим питанням , мені цікаво, чи зроблена якась робота над тематичними моделями для великих збірок надзвичайно коротких текстів. Моя інтуїція полягає в тому, що Twitter повинен бути природним натхненником для таких моделей. Однак, з деяких обмежених експериментів, схоже, що стандартні тематичні моделі (LDA тощо) на цих даних досить погано працюють.

Хтось там знає про якусь роботу, яка була виконана в цій галузі? У цьому документі йдеться про застосування LDA у Twitter, але мені дуже цікаво, чи існують інші алгоритми, які краще працюють у контексті короткого документа.


2
Twitter є особливо складним набором даних для моделювання тем не тільки через малий розмір "документів", але і через тип тексту. Люди схильні використовувати різні скорочення текстових повідомлень, що ще більше ускладнює виявлення спільних випадків.
Нік

Перегляньте список хороших робіт та відповідні вихідні коди для моделювання тем на Твітах за
NQD

Відповіді:


7

Це пізня відповідь, але вона може бути корисною для інших людей, які шукають відповідні дослідження та інструменти для цієї проблеми:

  1. Weiwei Guo з Columbia реалізував код для моделювання темнотекстових тем. Він описав реалізацію в роботі "Моделювання вироків у латентному просторі" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ), а код доступний тут: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Хоча це не тематичне моделювання, якщо у вас є завдання класифікації, що включає короткі фрагменти текстів, ви можете використовувати LibShortText. З їх опису веб-сайту

"LibShortText - це інструмент з відкритим кодом для класифікації та аналізу короткого тексту. Він може обробляти класифікацію, наприклад, заголовків, питань, пропозицій та коротких повідомлень ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

Хоча я не надто добре знайомий з його роботою, я знаю, що Якоб Айзенштейн робив роботу в аналізі тексту та графічних моделях у даних Twitter. Зокрема, у цій статті описано застосування моделювання тем у твіттерних даних та мікроблогах.

Редагувати: насправді, прочитавши документ трохи більше, вони заявляють:

Однак середнє повідомлення у Twitter - це лише шістнадцять жетонів слів, що занадто рідко для традиційного моделювання тем; натомість ми зібрали всі повідомлення певного користувача в один документ.

Тож, можливо, саме цей документ може не допомогти, але, можливо, інші публікації Айзенштейна можуть привести вас у правильному напрямку.


6

Нещодавній документ під назвою " модель біттерми для короткого тексту " (WWW13) досяг певного прогресу в цій темі, і ось його код


2
Я підтверджую, що BiTerm LDA працював досить добре для моделювання тем коротких висловлювань (3-8 слів) та подальшої класифікації.
Владислав Довгалеч
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.