Я рекомендую ці книги - вони також високо оцінені на Amazon:
"Текстовий майнінг" Вайсса
"Прикладне програмування текстового майнінгу", автор Konchady
Для програмного забезпечення я рекомендую RapidMiner (з текстовим плагіном), безкоштовний та з відкритим кодом.
Це мій "процес видобутку тексту":
- збирати документи (зазвичай веб-сканування)
- [зразок, якщо занадто великий]
- мітка часу
- викреслити розмітку
- tokenize: розбивайтеся на символи, слова, n-грам або розсувні вікна
- витікання (він же лематизація)
- [включити синоніми]
- дивіться займенники алгоритму «Портер» або «Сніжинка», а статті - як правило, погані предиктори
- видалити зупинки
- особливість векторизації
- двійковий (з’являється чи ні)
- підрахунок слів
- відносна частота: tf-idf
- інформаційний приріст, чи квадрат
- [мають мінімальне значення для включення]
- зважування
- вага слів у верхній частині документа вище?
Тоді ви можете розпочати роботу з їх класифікації. kNN, SVM або Naive Bayes відповідно.
Ви можете переглянути мою серію відео з видобутку тексту тут