Запитання з тегом «text-mining»

Посилається на підмножину розробки даних, що стосується вилучення інформації з даних у вигляді тексту шляхом розпізнавання шаблонів. Завданням видобутку тексту часто є автоматичне класифікацію даного документа на одну з ряду категорій та динамічне вдосконалення цієї продуктивності, що робить її прикладом машинного навчання. Одним із прикладів цього виду пошуку тексту є фільтри спаму, які використовуються для електронної пошти.

2
Чому в ідентифікації мови тексту замість слів використовується n-грам?
У двох популярних мовних ідентифікаційних бібліотеках, компактному детекторі мови 2 для C ++ та мовному детекторі для Java, обидві вони використовували (на основі символів) n-грамів для отримання тексту. Чому мішок слів (одне слово / словник) не використовується, і яка перевага та недолік мішок слів і n-грам? Крім того, які ще …

7
Які пакети пошуку текстових програм для R та чи існують інші програми з відкритим кодом текстового видобутку?
Чи можете ви порекомендувати пакет для видобутку тексту в R, який можна використовувати проти великих обсягів даних? По-друге, чи доступний графічний інтерфейс для будь-якого з пакетів обміну тексту в R? По-третє, чи існує інша програма з відкритим кодом для розробки тексту, яка є простою та інтуїтивно зрозумілою у використанні?
12 r  text-mining 


5
Хороші книги з видобутку тексту?
Привіт, я хотів дізнатися, чи є якісь хороші книги з видобутку тексту та класифікації з деякими тематичними дослідженнями ?. Якби не деякі газети / журнали, доступні громадськості, це зробили б. Якщо вони ще краще проілюструють свої приклади з R Я не шукаю покрокового посібника, а щось, що ілюструє плюси і …

1
Зростання IDF (зворотна частота документа)
У програмі видобутку тексту одним простим підходом є використання евристичного для створення векторів як компактних розріджених зображень документів. Це добре для серійної установки, де весь корпус відомий априорі, оскільки i d f вимагає весь корпуст ф- я дfтf-iгftf-idfя дfiгfidf i d f( t ) = журнал| Д ||{ д: t …

1
Розуміння використання логарифмів у логарифмі TF-IDF
Я читав: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Але я не можу точно зрозуміти, чому формула була побудована такою, якою вона є. Що я розумію: iDF повинен на якомусь рівні вимірювати, як часто термін S з'являється в кожному з документів, зменшуючи значення, оскільки термін з'являється частіше. З цієї точки зору iDF(S)=# of Documents# of Documents …

3
Щодо використання біграмової (N-грамової) моделі для побудови функціонального вектора для текстового документа
Традиційним підходом побудови функцій для видобутку тексту є підхід із пакету слів, який можна вдосконалити, використовуючи tf-idf для налаштування вектора ознак, що характеризує даний текстовий документ. В даний час я намагаюся використовувати біграмову мовну модель або (N-грам) для побудови функціонального вектора, але не знаю, як це зробити? Чи можемо ми …

1
Чи точне тлумачення рідкості?
Відповідно до документації removeSparseTermsфункції з tmпакету, це тягне за собою рідкість: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor …

1
Навіщо додати одну обернену частоту документа?
У моєму підручнику перелічено idf як деlog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : Кількість документів ntntn_t : Кількість документів, що містять термінttt Вікіпедія перераховує цю формулу як згладжену версію фактичного . Я розумію: він коливається від до що здається інтуїтивним. Але переходить від до що здається дивним ... Я трохи знаю про вирівнювання мовного …


1
Використання інструментів для видобутку тексту / природної мови для економетрики
Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть. Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Розуміння та застосування аналізу настроїв
Мені щойно призначили проект проведення аналізу настроїв для деяких колекцій документів. За допомогою Googling з'явилося багато досліджень, пов'язаних з настроями. Мої запитання: Які основні методи / алгоритми аналізу настроїв у галузі машинного навчання та статистичного аналізу? Чи є чітко встановлені результати? Чи існує якесь програмне забезпечення з відкритим кодом, яке …

4
Як здійснити декілька пост-хо-хі-квадратних тестів на таблиці 2 X 3?
Мій набір даних складається із загальної смертності чи виживання організму на трьох типах ділянок, прибережних, середніх каналів та офшорних. Цифри в таблиці нижче представляють кількість сайтів. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Мені хотілося б дізнатися, чи кількість сайтів, де 100% смертність сталася, …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.