Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

2
Визначення найбільшого учасника групи
Я мало знаю про статистику, тож ведіть мене. Скажімо, у мене набір 1000 робітників. Я хочу розібратися, хто найважчий працівник, але я можу виміряти лише кількість роботи, яку виконують у групах по 1-100 за години роботи. Якщо припустити, що кожен працівник завжди виконує приблизно однакову кількість роботи, під час великої …

2
Використання параметра Gamma з підтримуючими векторними машинами
При використанні libsvmпараметр є параметром для функції ядра. Його за замовчуванням встановлено якγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} Чи є якісь теоретичні вказівки щодо встановлення цього параметра, крім існуючих методів, наприклад, пошук в сітці?

2
Розуміння та застосування аналізу настроїв
Мені щойно призначили проект проведення аналізу настроїв для деяких колекцій документів. За допомогою Googling з'явилося багато досліджень, пов'язаних з настроями. Мої запитання: Які основні методи / алгоритми аналізу настроїв у галузі машинного навчання та статистичного аналізу? Чи є чітко встановлені результати? Чи існує якесь програмне забезпечення з відкритим кодом, яке …

2
Видаліть дублікати з навчального набору для класифікації
Скажімо, у мене є ряд рядків для проблеми класифікації: Х1, . . .ХN, YХ1,...ХN,YX_1, ... X_N, Y Де Х1, . . . ,ХNХ1,...,ХNX_1, ..., X_N є ознаками / провісниками та YYY - клас, до якого належить поєднання функцій рядка. Багато комбінацій функцій та їх класи повторюються в наборі даних, який …

5
Що я можу зробити поза кореляцією Пірсона?
Перевіряючи, чи співвідносяться дві змінні, я помітив, що застосування кореляції Пірсона дало цифри аж до 0,1, що вказує на відсутність кореляції. Чи можна щось зробити, щоб посилити цю претензію? Набір даних (підмножина через обмеження розміщення), на яку я дивлюсь, це: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 …

3
Алгоритм Апріорі простою англійською?
Я читав статті Вікі про Апріорі. У мене проблеми з розумінням чорносливу та кроку приєднання. Чи може хто-небудь пояснити мені, як алгоритм Apriori працює простими словами (такий, що новачок, як я, може зрозуміти легко)? Буде добре, якщо хтось пояснить покроковий процес, що бере участь у ньому.

3
Як швидко вибрати важливі змінні з дуже великого набору даних?
У мене є набір даних з близько 2000 бінарних змінних / 200 000 рядків, і я намагаюся передбачити одну бінарну залежну змінну. Моя головна мета на цьому етапі - не отримання точності прогнозування, а скоріше визначити, яка з цих змінних є важливими провісниками. Я хотів би знизити кількість змінних у …

2
Початок роботи з бікстерстеру
Я робив якісь випадкові інтернет-дослідження щодо бікластерів. (Я прочитав статтю Вікі кілька разів.) Поки здається, ніби мало визначень чи стандартної термінології. Мені було цікаво, чи є якісь стандартні папери чи книги, які кожен, хто цікавиться алгоритмами пошуку бікластерів, повинен прочитати. Чи можна сказати, що таке сучасний стан у цій галузі? …

2
Обчисліть криву ROC для даних
Отже, у мене є 16 випробувань, в яких я намагаюся ідентифікувати людину з біометричної ознаки за допомогою дистанції Hamming. Мій поріг встановлено на 3,5. Мої дані нижче, і лише пробна версія 1 - справжнє Позитивне: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.