Запитання з тегом «data-mining»

Для обміну даними використовуються методи штучного інтелекту в контексті бази даних для виявлення раніше невідомих закономірностей. Як такі, методи, як правило, не контролюються. Це тісно пов'язане, але не тотожне машинному навчанню. Основними завданнями вибору даних є кластерний аналіз, зовнішнє виявлення та розробка правил асоціації.

1
Варіативні умовиводи простою англійською мовою
Переглянувши відео на YouTube, я відчуваю, що я не можу реально визначити, що таке варіативні умовиводи. Я можу дотримуватися процедур під час перегляду відео-лекцій про це. Але важко визначити, що насправді є. Сподіваюсь почути про це.

1
Коли використовувати домішки Джині і коли використовувати інформаційний приріст?
Може хтось, будь ласка, пояснить мені, коли слід використовувати домішки Джині та отримання інформації для дерев рішень? Чи можете ви надати мені ситуації / приклади, коли найкраще використовувати який?

2
Чи є в цьому модельному підході надмірне обладнання
Нещодавно мені сказали, що процес, за яким я дотримувався (складова дисертації з МС), може розглядатися як надмірно придатний. Я шукаю, щоб краще зрозуміти це і побачити, чи згодні інші. Метою цієї частини статті є: Порівняйте продуктивність градієнтних підсилених регресійних дерев проти випадкових лісів на наборі даних. Подивіться на ефективність обраної …

3
Практичний підручник з PCA з даними
Пошук в Інтернеті за підручником PCA дає тисячі результатів (навіть відео). Багато навчальних посібників дуже хороші. Але я не в змозі знайти жодного практичного прикладу, де PCA пояснюється за допомогою деяких наборів даних, які я можу використовувати для демонстрації. Мені потрібен підручник, який надає невеликий набір даних, який легко побудувати …

1
Пошук відповідних правил для нових даних за допомогою ручок
Я використовую R (і пакет arules) для видобутку транзакцій для правил асоціації. Що я хочу зробити - це побудувати правила, а потім застосувати їх до нових даних. Наприклад, скажіть, що у мене є багато правил, одне з яких - канонічне {Beer=YES} -> {Diapers=YES}. Тоді я маю нові дані про трансакцію, …

14
Скільки інформації ви можете отримати з імені?
Ім'я: перше, можливо, середнє та прізвище. Мені цікаво, скільки інформації ви можете отримати з імені, використовуючи загальнодоступні набори даних. Я знаю, що ви можете отримати наступне з будь-якого місця між низькою і високою ймовірністю (залежно від вхідних даних), використовуючи дані перепису в США: 1) Стать. 2) Гонка. Наприклад, Facebook використовував …

1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

5
Кластеризація як засіб поділу даних для логістичної регресії
Я намагаюся передбачити успіх чи невдачу студентів на основі деяких особливостей з логістичною регресійною моделлю. Щоб покращити ефективність моделі, я вже думав про розподіл учнів на різні групи на основі очевидних відмінностей та побудови окремих моделей для кожної групи. Але я думаю, що може бути складно визначити ці групи за …

3
Хороші книги, що охоплюють попередню обробку даних та методи виявлення зовнішньої інформації
Згідно з назвою, чи знає хто-небудь про хорошу, сучасну книгу, яка охоплює попередню обробку даних загалом, і особливо методи зовнішнього виявлення? Книга не повинна зосереджуватись виключно на цьому, але вона повинна вичерпно стосуватися вищезазначених тем - я не був би задоволений чимось, що є відправною точкою, і цитую перелік робіт, …

2
Чи f-міра є синонімом точності?
Я розумію, що f-міра (заснована на точності та відкликання) - це оцінка того, наскільки точним є класифікатор. Крім того, f-міра віддається перевазі точності, коли у нас є неврівноважений набір даних. У мене просте запитання (яке стосується скоріше використання правильної термінології, ніж щодо технології). У мене незбалансований набір даних і я …

2
Які хороші показники для оцінки якості підходу до PCA, щоб вибрати кількість компонентів?
Яка хороша метрика для оцінки якості аналізу основних компонентів (PCA)? Я виконував цей алгоритм на наборі даних. Моєю метою було зменшити кількість функцій (інформація була дуже зайвою). Я знаю, відсоток збереженої дисперсії є хорошим показником того, скільки інформації ми зберігаємо, чи є інші інформаційні метрики, якими я можу скористатися, щоб …

1
Методи видобутку даних у кампанії Обами
Я зіткнувся з цією статтею про команду з пошуку даних у кампанії переобрання Обами. На жаль, стаття дуже нечітка щодо власне механізму статистичних алгоритмів. Однак це звучало так, ніби загальні прийоми відомі в соціальних і політичних науках. Оскільки це не моя сфера знань, чи може хтось вказати мені на (огляд) …

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
Звідки взявся термін «вивчити модель»
Часто я чув, як шахтарі даних тут використовують цей термін. Як статистик, який працював над проблемами класифікації, я знайомий з терміном "навчити класифікатора", і я припускаю, що "вивчити модель" означає те саме. Я не проти терміна "тренуйте класифікатора". Це, здається, відображає ідею підгонки моделі, оскільки навчальні дані використовуються для отримання …

3
Щодо використання біграмової (N-грамової) моделі для побудови функціонального вектора для текстового документа
Традиційним підходом побудови функцій для видобутку тексту є підхід із пакету слів, який можна вдосконалити, використовуючи tf-idf для налаштування вектора ознак, що характеризує даний текстовий документ. В даний час я намагаюся використовувати біграмову мовну модель або (N-грам) для побудови функціонального вектора, але не знаю, як це зробити? Чи можемо ми …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.