Я провів три дні задумуючись tm
після того, як прочитав друге чернетку документа, де він досліджував текстовий корпус з UCINET, показуючи текстові хмари, двомодні мережеві графіки та однокомпонентну розкладку (з графікою, використовуючи Stata). Я зіткнувся з великою кількістю питань: у Mac OS X є проблеми з Java за бібліотеками, такі як Snowball (стовбуровий) або Rgraphviz (graphs).
Може хто - то відзначити НЕ пакети - я подивився на tm
, wordfish
і wordscores
, й знати про NLTK - але дослідження, якщо це можливо з кодом, на текстові дані, які успішно використовує tm
або що - то ще , щоб аналізувати дані , такі як парламентські дебати і законодавчі документи? Мені здається, я не знаходжу багато з цього питання, а ще менше коду, з якого слід навчитися.
Мій власний проект - двомісячна парламентська дискусія, про ці змінні повідомлено у файлі CSV: сесія парламенту, спікер, депутатська група, текст усного втручання. Я шукаю розбіжності між спікерами, а особливо між парламентськими групами у використанні рідкісних та менш рідкісних термінів, наприклад, розмови про "безпеку" проти "громадянських свобод".