яка різниця між класифікацією тексту та моделями тем?


20

Я знаю різницю між кластеризацією та класифікацією в машинному навчанні, але я не розумію різниці між класифікацією тексту та моделюванням тем для документів. Чи можна використовувати моделювання тем над документами для ідентифікації теми? Чи можна використовувати методи класифікації для класифікації тексту всередині цих документів?

Відповіді:


28

Класифікація тексту

Я дарую вам купу документів, до кожного з яких додається ярлик. Я прошу вас дізнатись, чому ви вважаєте, чому вміст документів отримав ці ярлики на основі їх слів. Тоді я даю вам нові документи і запитую, на вашу думку, етикеткою для кожного з них. Етикетки мають значення для мене, а не для вас обов'язково.

Тематичне моделювання

Я дарую вам купу документів, без ярликів. Я прошу пояснити, чому в документах є слова, які вони роблять, визначивши деякі теми, про які "йдеться". Ви розкажіть мені теми, розповідаючи, скільки кожної з них у кожному документі, і я вирішую, що означають теми, якщо що.

Вам доведеться уточнити, що ви мені, "визначте одну тему" або "класифікуйте текст".


10

Але я не знаю, в чому різниця між класифікацією тексту та моделями тем у документах

Text Classificationце форма керованого навчання, отже, набір можливих класів відомий / визначений заздалегідь , і не зміниться.

Topic Modelingє формою неконтрольованого навчання (на кшталт кластеризація), так що безліч можливих тем невідомі апріорні . Вони визначаються як частина генерування тематичних моделей. З недетермінованим алгоритмом, як LDA, ви отримуватимете різні теми щоразу, коли запускаєте алгоритм.

Text classificationчасто включає взаємовиключні заняття - вважайте це відрами.
Але це не обов'язково: з огляду на правильний вид маркованих вхідних даних, ви можете встановити ряд бінарних класифікаторів, які не виключають один одного.

Topic modelingяк правило, не є взаємовиключними: один і той же документ може розподілити ймовірність по багатьох темах. Крім того, існують також ієрархічні методи моделювання тем.

Чи можу я використовувати тематичну модель для документів, щоб потім визначити одну тему, чи можу я використати класифікацію для класифікації тексту всередині цих документів?

Якщо ви запитуєте, чи можете ви взяти всі документи, присвоєні одній темі алгоритмом моделювання тем, а потім застосувати класифікатор до цієї колекції, то так, ви, звичайно, можете це зробити.

Я не впевнений, що це має багато сенсу: як мінімум, вам потрібно буде вибрати поріг для розподілу ймовірностей теми, вище якого ви будете включати документи у свою колекцію (як правило, 0,05-0,1).

Чи можете ви детальніше розглянути свій варіант використання?

До речі, тут є чудовий посібник з моделювання тем за допомогою бібліотеки MALLET для Java, доступної тут: Початок роботи з моделювання теми та MALLET


4

Тематичні моделі, як правило, не контролюються . Існують і "наглядові моделі тем"; але навіть тоді вони намагаються моделювати теми на уроках .

Наприклад, у вас може бути клас "футбол", але всередині цього класу можуть бути теми, які стосуються конкретних матчів або команд.

Завдання з темами полягає в тому, що вони змінюються з часом; розглянемо приклад відповідності вище. Такі теми можуть виникати і знову зникати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.