Але я не знаю, в чому різниця між класифікацією тексту та моделями тем у документах
Text Classification
це форма керованого навчання, отже, набір можливих класів відомий / визначений заздалегідь , і не зміниться.
Topic Modeling
є формою неконтрольованого навчання (на кшталт кластеризація), так що безліч можливих тем невідомі апріорні . Вони визначаються як частина генерування тематичних моделей. З недетермінованим алгоритмом, як LDA, ви отримуватимете різні теми щоразу, коли запускаєте алгоритм.
Text classification
часто включає взаємовиключні заняття - вважайте це відрами.
Але це не обов'язково: з огляду на правильний вид маркованих вхідних даних, ви можете встановити ряд бінарних класифікаторів, які не виключають один одного.
Topic modeling
як правило, не є взаємовиключними: один і той же документ може розподілити ймовірність по багатьох темах. Крім того, існують також ієрархічні методи моделювання тем.
Чи можу я використовувати тематичну модель для документів, щоб потім визначити одну тему, чи можу я використати класифікацію для класифікації тексту всередині цих документів?
Якщо ви запитуєте, чи можете ви взяти всі документи, присвоєні одній темі алгоритмом моделювання тем, а потім застосувати класифікатор до цієї колекції, то так, ви, звичайно, можете це зробити.
Я не впевнений, що це має багато сенсу: як мінімум, вам потрібно буде вибрати поріг для розподілу ймовірностей теми, вище якого ви будете включати документи у свою колекцію (як правило, 0,05-0,1).
Чи можете ви детальніше розглянути свій варіант використання?
До речі, тут є чудовий посібник з моделювання тем за допомогою бібліотеки MALLET для Java, доступної тут: Початок роботи з моделювання теми та MALLET