Використання кластеризації в обробці тексту

11

Привіт, це моє перше питання в стеці Data Science. Я хочу створити алгоритм класифікації тексту. Припустимо, у мене є великий набір тексту та статей. Скажімо, близько 5000 простих текстів. Спочатку використовую просту функцію для визначення частоти всіх чотирьох і вище символьних слів. Потім я використовую це як особливість кожного навчального зразка. Тепер я хочу, щоб мій алгоритм міг кластерувати навчальні набори відповідно до їх особливостей, яка тут частота кожного слова в статті. (Зауважте, що в цьому прикладі кожна стаття мала б свою унікальну особливість, оскільки кожна стаття має різну особливість; наприклад, у статті є 10 "води та 23" у чистоті, а в іншій - 8 "політик" та 14 "важелів"). Чи можете ви запропонувати найкращий алгоритм кластеризації для цього прикладу?

text-mining clustering

— Рашид
джерело

5

Я не знаю, чи читали ви коли-небудь SenseCluster від Теда Педерсена: http://senseclusters.sourceforge.net/ . Дуже хороший папір для кластеризації почуттів.

Також, аналізуючи слова, подумайте, що «комп’ютер», «комп’ютери», «комп’ютеризація», ... являють собою одне поняття, тож лише одна особливість. Дуже важливий для правильного аналізу.

Щоб говорити про алгоритм кластеризації, ви можете використовувати ієрархічну кластеризацію . На кожному кроці альго ви з’єднуєте 2 найбільш схожі тексти за їхніми особливостями (використовуючи міру несхожості, наприклад, евклідову відстань). За допомогою цієї міри несхожості ви зможете знайти найкращу кількість кластерів і так, найкращу кластеризацію ваших текстів та статей.

Удачі :)

— JC R
джерело

6

Якщо ви хочете продовжити свій існуючий шлях, я пропоную нормалізувати частоту кожного терміна за його популярністю у всьому корпусі, тому пропагуються рідкісні, а отже, і прогностичні слова. Потім використовуйте випадкові прогнози, щоб зменшити розмірність цих дуже довгих векторів до розміру, щоб ваш алгоритм кластеризації працював краще (ви не хочете кластеризуватися у просторах з високими розмірами).

Але є й інші способи моделювання теми. Прочитайте цей підручник, щоб дізнатися більше.

— Емре
джерело

2

Не можна сказати, що це найкращий варіант, але латентний семантичний аналіз може бути одним із варіантів. В основному він заснований на спільному появі, спочатку потрібно зважити.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Проблема полягає в тому, що LSA не має твердої статистичної підтримки.

Весело

— Чень Го
джерело

0

Одним із способів класифікації тексту є обчислення терміна частоти та зворотної частоти документа. Ви можете посилатися на цей документ: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Раджан Кумар Харел
джерело