Я нещодавно прочитав чотири книги в цій галузі:
Фельдман, Р. та Джеймс Сангер, Дж. (2006). Посібник з видобутку тексту: розширені підходи до аналізу неструктурованих даних. Cambridge University Press.
Цей фокусується на практичних прикладах, програмному забезпеченні та прикладному пошуку тексту. Він наводить кілька прикладів практичного використання текстового майнінгу. Це може зацікавити, якщо ви хочете прочитати про комерційні програми інструментів для видобутку тексту.
Срівастава, А.Н. і Сахамі, М. (2009). Текстовий майнінг: класифікація, кластеризація та програми. Chapman & Hall / CRC.
Це серія науково-дослідних робіт, які використовуються як приклади використання різних інструментів для видобутку тексту. Це занадто зосереджено, як і для вступного тесту.
Вайсс, СМ, Індурхья, Н., Чжан, Т. і Дамерау, Ф. (2005). Текстовий майнінг: прогнозні методи аналізу неструктурованої інформації.
Спрингер.
Дуже вступний текст, який описує деякі загальні питання.
Меннінг, C. (1999). Основи статистичної обробки природних мов. MIT Press.
Це найкраща книга, яку я вже читав на цю тему. Це добре написано, зрозуміло, заглиблюється в теорію, але в практичному відношенні. Починається із загального вступу, але, ніж оглядає деякі найбільш часто використовувані методи та алгоритми. Якщо вам доведеться вибрати лише одну книгу, я б рекомендував цю.
Ви також можете легко знайти кілька книг з обробки природних мов та видобутку тексту, орієнтованих на використання R ( tm library) або Python ( nltk library).