Запитання з тегом «text-mining»

Посилається на підмножину розробки даних, що стосується вилучення інформації з даних у вигляді тексту шляхом розпізнавання шаблонів. Завданням видобутку тексту часто є автоматичне класифікацію даного документа на одну з ряду категорій та динамічне вдосконалення цієї продуктивності, що робить її прикладом машинного навчання. Одним із прикладів цього виду пошуку тексту є фільтри спаму, які використовуються для електронної пошти.

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Як працює шар "Вбудовування" Кераса?
Потрібно зрозуміти, як працює шар «Вбудовування» у бібліотеці Кераса. Я виконую наступний код у Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) що дає наступний вихід input_array = [[4 …

6
Як квазі відповідати двом векторам струн (в R)?
Я не впевнений, як це слід називати, тому, будь ласка, виправте мене, якщо ви знаєте кращий термін. У мене є два списки. Один із 55 елементів (наприклад, вектор рядків), інший із 92. Назви елементів схожі, але не тотожні. Я хочу , щоб знайти кращий кандидат S в 92 списку елементів …
36 r  text-mining 

6
Статистична класифікація тексту
Я програміст, що не має статистичної інформації, і зараз я розглядаю різні методи класифікації для великої кількості різних документів, які я хочу класифікувати за заздалегідь визначеними категоріями. Я читав про kNN, SVM та NN. Однак у мене є проблеми з початком роботи. Які ресурси ви рекомендуєте? Я дуже добре знаю …

4
Техніка машинного навчання для розбору рядків?
У мене дуже багато адресних рядків: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу їх розібрати на компоненти: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Але, звичайно, дані брудні: вони надходять з багатьох країн багатьма мовами, написані різними способами, містять неправильні написання, відсутні шматки, …

3
Наскільки R масштабує завдання для класифікації тексту? [зачинено]
Я намагаюся досягти швидкості з R. Я врешті-решт хочу використовувати R-бібліотеки для класифікації тексту. Мені було просто цікаво, який досвід людей щодо масштабованості R, коли мова йде про класифікацію тексту. Я, швидше за все, зіткнувся з великими розмірними даними (~ 300k розмірів). Я дивлюся на використання SVM та Random Forest, …

2
Різниця між наївним Байєсом та багаточленним наївним Байєсом
Я раніше мав справу з класифікатором Naive Bayes . Я читав про багаточленних наївних байесах останнім часом. Також задня ймовірність = (попередня * ймовірність) / (докази) . Єдина головна різниця (програмуючи ці класифікатори), яку я виявив між Naive Bayes та Multinomial Naive Bayes, полягає в тому, що Мультиноміальний Naive Bayes …

4
R пакети для моделювання теми / LDA: просто `topicmodels` та` lda` [закрито]
Мені здається, що лише два пакети R здатні виконувати приховане розподілення Діріхле : Один є ldaавтором Джонатана Чанга; а другий topicmodelsавтор - Беттіна Грюн та Курт Горник. Які відмінності між цими двома пакетами щодо продуктивності, деталей реалізації та розширюваності?

1
Чи встановлено перехресне підтвердження належною заміною для перевірки?
У класифікації тексту у мене є навчальний набір з приблизно 800 зразками та тестовий набір з приблизно 150 зразками. Тестовий набір ніколи не використовувався і чекав його використання до кінця. Я використовую цілий 800 навчальний набір зразків, з 10-кратним перехресним підтвердженням під час настройки та налаштування класифікаторів та функцій. Це …

7
У Наївних Бейсах, чому турбуватися згладжуванням Лапласа, коли в тестовому наборі є невідомі слова?
Я читав сьогодні класифікацію Naive Bayes. Я читав під заголовком Оцінка параметрів з додаванням 1 згладжування : Нехай посилається на клас (наприклад, позитивний чи негативний), а позначає маркер або слово.cccwww Максимальний показник ймовірності для -P(w|c)P(w|c)P(w|c)count(w,c)count(c)=counts w in class ccounts of words in class c.count(w,c)count(c)=counts w in class ccounts of words …

3
Тематичні моделі та методи спільного виникнення слів
Популярні моделі тем, як LDA, як правило, кластеризують слова, які мають тенденцію спільно зустрічатися в одну тему (кластер). У чому полягає основна відмінність таких моделей тематики від інших простих підходів, заснованих на кластеризації на основі спільного виникнення, таких як PMI? (PMI позначає точку взаємної інформації, і вона використовується для ідентифікації …

2
Мішок слів для класифікації тексту: Чому б не просто використовувати частоту слова замість TFIDF?
Поширеним підходом до класифікації тексту є підготовка класифікатора від «мішечок слів». Користувач приймає текст для класифікації та підраховує частоти слів у кожному об'єкті з подальшим обрізанням, щоб зберегти отриману матрицю керованого розміру. Часто я бачу, як користувачі конструюють свій функціональний вектор за допомогою TFIDF. Іншими словами, зазначені вище частоти тексту …

1
Чи було скопійовано повідомлення про найсучасніший результат використання векторів абзацу для аналізу настроїв?
Мене вразили результати в роботі ICML 2014 « Розподілені представлення вироків і документів » Ле та Міколова. Метод, який вони описують, називається "векторами абзацу", вивчає непідконтрольне уявлення довільно довгих абзаців / документів, заснованих на розширенні моделі word2vec. У статті представлено найсучасніші показники аналізу настроїв за допомогою цієї методики. Я сподівався …

3
Напівконтрольне навчання, активне навчання та глибоке навчання для класифікації
Остаточне редагування з усіма оновленими ресурсами: Для проекту я застосовую алгоритми машинного навчання для класифікації. Завдання: Досить обмежені марковані дані та набагато більше мічених даних. Цілі: Застосовуйте напівнаглядову класифікацію Застосувати як-небудь напівпідконтрольний процес маркування (відомий як активне навчання) Я знайшов багато інформації з науково-дослідних робіт, таких як застосування EM, Transductive …

2
Чому обробка природних мов не підпадає під домен машинного навчання? [зачинено]
Наразі це питання не підходить для нашого формату запитань. Ми очікуємо, що відповіді будуть підкріплені фактами, посиланнями або експертними знаннями, але це питання, ймовірно, вимагатиме дискусій, аргументів, опитувань чи розширеної дискусії. Якщо ви вважаєте, що це питання можна вдосконалити та, можливо, знову відкрити, відвідайте довідковий центр для ознайомлення . Закрито …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.