Натхненний цим питанням , мені цікаво, чи зроблена якась робота над тематичними моделями для великих збірок надзвичайно коротких текстів. Моя інтуїція полягає в тому, що Twitter повинен бути природним натхненником для таких моделей. Однак, з деяких обмежених експериментів, схоже, що стандартні тематичні моделі (LDA тощо) на цих даних досить погано працюють.
Хтось там знає про якусь роботу, яка була виконана в цій галузі? У цьому документі йдеться про застосування LDA у Twitter, але мені дуже цікаво, чи існують інші алгоритми, які краще працюють у контексті короткого документа.