Запитання з тегом «natural-language»

Обробка природних мов - це сукупність прийомів з лінгвістики, штучного інтелекту, машинного навчання та статистики, які спрямовані на обробку та розуміння людських мов.

2
Здивованість та крос-ентропія для n-грамових моделей
Намагаючись зрозуміти взаємозв'язок між перехресною ентропією та недоумінням. Загалом для моделі M , Perplexity (M) = 2 ^ ентропія (M) . Чи стосується ця залежність для всіх різних n-грамів, тобто уніграма, біграми тощо?

1
Чи точне тлумачення рідкості?
Відповідно до документації removeSparseTermsфункції з tmпакету, це тягне за собою рідкість: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor …

1
Яка модель глибокого навчання може класифікувати категорії, які не є взаємовиключними
Приклади: у мене є речення в описі посади: "Старший інженер Java у Великобританії". Я хочу використовувати модель глибокого навчання, щоб передбачити її як 2 категорії: English і IT jobs. Якщо я використовую традиційну модель класифікації, вона може передбачити лише 1 мітку з softmaxфункцією на останньому шарі. Таким чином, я можу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Навіщо додати одну обернену частоту документа?
У моєму підручнику перелічено idf як деlog(1+Nnt)log(1+Nnt)log(1+\frac{N}{n_t}) NNN : Кількість документів ntntn_t : Кількість документів, що містять термінttt Вікіпедія перераховує цю формулу як згладжену версію фактичного . Я розумію: він коливається від до що здається інтуїтивним. Але переходить від до що здається дивним ... Я трохи знаю про вирівнювання мовного …

1
Розуміння сингулярної декомпозиції значення в контексті LSI
Моє запитання, як правило, щодо сингулярної декомпозиції значення (SVD), зокрема, щодо латентної семантичної індексації (LSI). Скажімо, у мене є що містить частоти 5 слів для 7 документів.Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') Я отримую матрицю розкладання для за допомогою SVD: …

1
Використання інструментів для видобутку тексту / природної мови для економетрики
Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть. Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я …

1
Коефіцієнт вірогідності журналу при узагальненні документів
Я спочатку запитав це про переповнення стека і був спрямований на цей сайт, тож ось: Я впроваджую кілька непідконтрольних методів підбору вмісту / вибору вмісту / вилучення вмісту документів, і я збентежений тим, що мій підручник називає "коефіцієнт вірогідності журналу". Книга " Обробка мови та мови " Юрафського та Мартіна …

1
Різниця між Naive Bayes і періодичною нейронною мережею (LSTM)
Я хочу провести аналіз настрою на текст, пройшов кілька статей, деякі з них використовують "Naive Bayes", а інші - "Recurrent Neural Network (LSTM)" , з іншого боку я бачив бібліотеку пітонів для аналізу настроїв, які є nltk. Він використовує "Naive Bayes", може хто-небудь пояснити, в чому різниця між використанням цих …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.