Хороші книги з видобутку тексту?


11

Привіт, я хотів дізнатися, чи є якісь хороші книги з видобутку тексту та класифікації з деякими тематичними дослідженнями ?. Якби не деякі газети / журнали, доступні громадськості, це зробили б. Якщо вони ще краще проілюструють свої приклади з R Я не шукаю покрокового посібника, а щось, що ілюструє плюси і мінуси різних підходів до вибору тексту до різних класів проблем.

Відповіді:


5

Ознайомтесь з http://lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf Обробка даних з обсягами даних з MapReduce - ця книга є досить академічною, але охоплює ряд часто використовуваних методів обробки тексту та те, як їх можна парралізувати над великим набором даних за допомогою зменшення карти.

www.rtexttools.com Це відмінний пакет R, який допомагає застосувати широкий спектр алгоритмів класифікації (включаючи деякі ансамблеві методи) до аналізу тексту. і


4
Щоб зробити цю відповідь самодостатньою, чи не могли б ви запропонувати короткий підсумок кожного посилання?
chl

4

Я нещодавно прочитав чотири книги в цій галузі:

Фельдман, Р. та Джеймс Сангер, Дж. (2006). Посібник з видобутку тексту: розширені підходи до аналізу неструктурованих даних. Cambridge University Press.

Цей фокусується на практичних прикладах, програмному забезпеченні та прикладному пошуку тексту. Він наводить кілька прикладів практичного використання текстового майнінгу. Це може зацікавити, якщо ви хочете прочитати про комерційні програми інструментів для видобутку тексту.

Срівастава, А.Н. і Сахамі, М. (2009). Текстовий майнінг: класифікація, кластеризація та програми. Chapman & Hall / CRC.

Це серія науково-дослідних робіт, які використовуються як приклади використання різних інструментів для видобутку тексту. Це занадто зосереджено, як і для вступного тесту.

Вайсс, СМ, Індурхья, Н., Чжан, Т. і Дамерау, Ф. (2005). Текстовий майнінг: прогнозні методи аналізу неструктурованої інформації. Спрингер.

Дуже вступний текст, який описує деякі загальні питання.

Меннінг, C. (1999). Основи статистичної обробки природних мов. MIT Press.

Це найкраща книга, яку я вже читав на цю тему. Це добре написано, зрозуміло, заглиблюється в теорію, але в практичному відношенні. Починається із загального вступу, але, ніж оглядає деякі найбільш часто використовувані методи та алгоритми. Якщо вам доведеться вибрати лише одну книгу, я б рекомендував цю.

Ви також можете легко знайти кілька книг з обробки природних мов та видобутку тексту, орієнтованих на використання R ( tm library) або Python ( nltk library).


2

Це, можливо, не саме для того, що ви шукаєте, але засвоєння регулярних виразів Джефрі Фрідля - чудове джерело для того, як навчитися використовувати регулярні вирази для розбору тексту. Він не обговорює методи моделювання, але, озброївшись рахунком від застосування регулярних виразів, ви можете застосувати різні стандартні підходи моделювання.


2

Одна книга, яку я знову і знову звертаюсь до ідей, - це текстовий майнінг: методи прогнозування ... Шолом Вайс. У ньому є багато ідей для вирішення проблем, які мені здаються корисними, оскільки іноді видобуток тексту полягає у спробах різних речей - Глобальний проти локального словника, кількість функцій, які потрібно зберегти тощо. Мені здається, що ця книга є генератором хорошої ідеї. У ньому також є тематичні дослідження.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.