Запитання з тегом «information-retrieval»

6
Статистична класифікація тексту
Я програміст, що не має статистичної інформації, і зараз я розглядаю різні методи класифікації для великої кількості різних документів, які я хочу класифікувати за заздалегідь визначеними категоріями. Я читав про kNN, SVM та NN. Однак у мене є проблеми з початком роботи. Які ресурси ви рекомендуєте? Я дуже добре знаю …

2
Вимірювання подібності документа
Для кластеризації (текстових) документів потрібен спосіб вимірювання подібності між парами документів. Дві альтернативи: Порівняйте документи як термінові вектори, використовуючи косинулогічну подібність - і TF / IDF як коефіцієнти зважування для термінів. Порівняйте кожен розподіл вірогідності документів, використовуючи f-дивергенцію, наприклад, дивергенцію Куллбека-Лейблера Чи є якась інтуїтивна причина віддати перевагу одному методу …

4
Як спроектувати новий вектор на простір PCA?
Після проведення аналізу основних компонентів (PCA) я хочу спроектувати новий вектор на простір PCA (тобто знайти його координати в системі координат PCA). Я розрахував PCA мовою R за допомогою prcomp. Тепер я повинен мати можливість помножити свій вектор на матрицю обертання PCA. Чи повинні головні компоненти в цій матриці розташовуватися …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
Середня середня точність та середній реципрочний ранг
Я намагаюся зрозуміти, коли доречно використовувати MAP та коли MRR слід використовувати. Я знайшов цю презентацію, в якій зазначається, що MRR найкраще використовувати, коли кількість відповідних результатів менше 5, а найкраще, коли це 1. В інших випадках ПДЧ є відповідним. У мене є два питання: Я не дуже розумію, чому …

1
Парель між LSA та pLSA
В оригінальній статті pLSA автор Томас Гофман провів паралель між структурами даних pLSA та LSA, яку я хотів би обговорити з вами. Фон: Здійснюючи натхнення для отримання інформації, припустимо, у нас є колекція документів та словниковий запас термінівNNND={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbraceMMMΩ={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, ..., …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Розуміння та застосування аналізу настроїв
Мені щойно призначили проект проведення аналізу настроїв для деяких колекцій документів. За допомогою Googling з'явилося багато досліджень, пов'язаних з настроями. Мої запитання: Які основні методи / алгоритми аналізу настроїв у галузі машинного навчання та статистичного аналізу? Чи є чітко встановлені результати? Чи існує якесь програмне забезпечення з відкритим кодом, яке …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.