Приклади виведення тексту з R (tm пакет)

14

Я провів три дні задумуючись tmпісля того, як прочитав друге чернетку документа, де він досліджував текстовий корпус з UCINET, показуючи текстові хмари, двомодні мережеві графіки та однокомпонентну розкладку (з графікою, використовуючи Stata). Я зіткнувся з великою кількістю питань: у Mac OS X є проблеми з Java за бібліотеками, такі як Snowball (стовбуровий) або Rgraphviz (graphs).

Може хто - то відзначити НЕ пакети - я подивився на tm, wordfishі wordscores, й знати про NLTK - але дослідження, якщо це можливо з кодом, на текстові дані, які успішно використовує tmабо що - то ще , щоб аналізувати дані , такі як парламентські дебати і законодавчі документи? Мені здається, я не знаходжу багато з цього питання, а ще менше коду, з якого слід навчитися.

Мій власний проект - двомісячна парламентська дискусія, про ці змінні повідомлено у файлі CSV: сесія парламенту, спікер, депутатська група, текст усного втручання. Я шукаю розбіжності між спікерами, а особливо між парламентськими групами у використанні рідкісних та менш рідкісних термінів, наприклад, розмови про "безпеку" проти "громадянських свобод".

r text-mining

— О.
джерело

1

stackoverflow.com/questions/4070483/text-retrieval-using-r

7

Кандидатська дисертація автора tm, Інго Фейнерер з Австрії, написана англійською мовою. Розділи 7-10 цього документа містять додатки пакету tm зі збільшенням складності.

http://epub.wu.ac.at/1923/

У главі 7 представлено застосування tm шляхом аналізу списку розсилки R-devel 2006. У главі 8 показано застосування текстового пошуку для бізнесу до електронної комерції споживачів. Розділ 9 - це застосування tm для розслідування юрисдикцій вищих адміністративних судів Австрії щодо мита та податків. [...] . У Розділі 10 показано додаток для стилометрії та атрибуції авторства у наборі даних Майстра Оза.

Прочитайте всю обкладинку документа для обкладинки. Однак зауважте, що документ був написаний у 2008 році, і з тих пір відбулося декілька змін API, наприклад, кандидатська дисертація згадує функцію, tmMap()яку було перейменовано на tm_map(). Тому приклади коду не будуть працювати як є, ви не можете використовувати cut-and-paste, щоб спробувати їх.

Ви також можете піти

http://tm.r-forge.r-project.org/users.html

"Намагаючись повідомити нових користувачів про існуючі програми tm, цей сайт має на меті надати (неповний алфавітний) список користувачів tm та їх коментарі. Відомі користувачі варіюються від науково-дослідних інститутів від компаній до приватних осіб".

і знайдіть на цій сторінці фразу "написав папір", і ви знайдете багато посилань. Я прочитав лише один із статей "Автоматичне виявлення тем у тексті пісні". Досить цікаво і смішно.

— кнб
джерело

Я думаю, що дисертація Фейнерера - це документ, який мені найбільше допоміг. Спасибі!

— о.

5

Хорошим місцем для початку може стати список публікацій на веб-сайті для tm, наприклад, цього:

Інфраструктура видобутку тексту в Р. http://www.jstatsoft.org/v25/i05

Список довідників у кінці кожної з цих публікацій включає успішні програми tm, які ви, начебто, шукаєте. Їх багато - особливо якщо ви слідуєте за посиланнями.

Наприклад, ось який може бути актуальним:

Feinerer I, Hornik K (2007). \ Текстовий видобуток юрисдикцій Верховного адміністративного суду. "У C Preisach, H Burkhardt, L Schmidt-Thieme, R Decker (ред.), \ Аналіз даних, Машинне навчання та додатки (Матеріали 31-ї щорічної конференції Gesellschaft f ur Klassikation eV, 7 {9 березня 2007 р., Фрайбург, Німеччина), "Дослідження в галузі класифікації, аналізу даних та організації знань. Спрингер-Верлаг.

Удачі.

— Чоловік
джерело

Дякую за довідку. Рівень деталізації в цих публікаціях недостатній - мені довелося прочитати з дисертації Фейнерера, щоб отримати достатньо подробиць про те, як діяти tmв моєму кінці. Все-таки дуже дякую :)

— о.