Статистика та великі дані text-mining

2

Чому в ідентифікації мови тексту замість слів використовується n-грам?

У двох популярних мовних ідентифікаційних бібліотеках, компактному детекторі мови 2 для C ++ та мовному детекторі для Java, обидві вони використовували (на основі символів) n-грамів для отримання тексту. Чому мішок слів (одне слово / словник) не використовується, і яка перевага та недолік мішок слів і n-грам? Крім того, які ще …

12 machine-learning classification text-mining natural-language

7

Які пакети пошуку текстових програм для R та чи існують інші програми з відкритим кодом текстового видобутку?

Чи можете ви порекомендувати пакет для видобутку тексту в R, який можна використовувати проти великих обсягів даних? По-друге, чи доступний графічний інтерфейс для будь-якого з пакетів обміну тексту в R? По-третє, чи існує інша програма з відкритим кодом для розробки тексту, яка є простою та інтуїтивно зрозумілою у використанні?

12 r text-mining

2

Мішок слів проти векторної космічної моделі?

Яка / в чому різниця / і між цими моделями подання тексту: Мішок слів та модель векторного простору?

12 machine-learning text-mining

5

Хороші книги з видобутку тексту?

Привіт, я хотів дізнатися, чи є якісь хороші книги з видобутку тексту та класифікації з деякими тематичними дослідженнями ?. Якби не деякі газети / журнали, доступні громадськості, це зробили б. Якщо вони ще краще проілюструють свої приклади з R Я не шукаю покрокового посібника, а щось, що ілюструє плюси і …

11 references text-mining

1

Зростання IDF (зворотна частота документа)

У програмі видобутку тексту одним простим підходом є використання евристичного для створення векторів як компактних розріджених зображень документів. Це добре для серійної установки, де весь корпус відомий априорі, оскільки i d f вимагає весь корпуст ф- я дfтf-iгftf-idfя дfiгfidf i d f( t ) = журнал| Д ||{ д: t …

11 time-series text-mining

1

Розуміння використання логарифмів у логарифмі TF-IDF

Я читав: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Але я не можу точно зрозуміти, чому формула була побудована такою, якою вона є. Що я розумію: iDF повинен на якомусь рівні вимірювати, як часто термін S з'являється в кожному з документів, зменшуючи значення, оскільки термін з'являється частіше. З цієї точки зору iDF(S)=# of Documents# of Documents …

10 machine-learning clustering mathematical-statistics text-mining natural-language

3

Щодо використання біграмової (N-грамової) моделі для побудови функціонального вектора для текстового документа

Традиційним підходом побудови функцій для видобутку тексту є підхід із пакету слів, який можна вдосконалити, використовуючи tf-idf для налаштування вектора ознак, що характеризує даний текстовий документ. В даний час я намагаюся використовувати біграмову мовну модель або (N-грам) для побудови функціонального вектора, але не знаю, як це зробити? Чи можемо ми …

10 machine-learning data-mining text-mining natural-language language-models

1

Чи точне тлумачення рідкості?

Відповідно до документації removeSparseTermsфункції з tmпакету, це тягне за собою рідкість: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor …

10 r text-mining natural-language

1

Навіщо додати одну обернену частоту документа?

У моєму підручнику перелічено idf як деlog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : Кількість документів ntntn_t : Кількість документів, що містять термінttt Вікіпедія перераховує цю формулу як згладжену версію фактичного . Я розумію: він коливається від до що здається інтуїтивним. Але переходить від до що здається дивним ... Я трохи знаю про вирівнювання мовного …

9 text-mining natural-language smoothing

2

Що таке VectorSource та VCorpus в пакеті 'tm' (Text Mining) в R

Я не зовсім впевнений, що саме VectorSource та VCorpus є у пакеті 'tm'. Документація щодо них незрозуміла, може хтось змусить мене зрозуміти простими словами?

9 r text-mining

1

Використання інструментів для видобутку тексту / природної мови для економетрики

Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть. Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я …

9 machine-learning data-mining econometrics text-mining natural-language

1

Як порівняти спостережувані та очікувані події?

Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

Розуміння та застосування аналізу настроїв

Мені щойно призначили проект проведення аналізу настроїв для деяких колекцій документів. За допомогою Googling з'явилося багато досліджень, пов'язаних з настроями. Мої запитання: Які основні методи / алгоритми аналізу настроїв у галузі машинного навчання та статистичного аналізу? Чи є чітко встановлені результати? Чи існує якесь програмне забезпечення з відкритим кодом, яке …

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

4

Як здійснити декілька пост-хо-хі-квадратних тестів на таблиці 2 X 3?

Мій набір даних складається із загальної смертності чи виживання організму на трьох типах ділянок, прибережних, середніх каналів та офшорних. Цифри в таблиці нижче представляють кількість сайтів. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Мені хотілося б дізнатися, чи кількість сайтів, де 100% смертність сталася, …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

Запитання з тегом «text-mining»