Запитання з тегом «cart»

"Дерева класифікації та регресії". CART - популярна техніка машинного навчання, і вона є основою для таких методів, як випадкові ліси та загальні впровадження машин для збільшення градієнтів.

1
У яких реалізаціях необхідні масштабування змінних (функціональних) дерев рішень та нормалізація змінної (функції), в яких реалізаціях?
У багатьох алгоритмах машинного навчання масштабування функцій (так само змінне масштабування, нормалізація) є поширеним попереднім етапом Вікіпедії - Масштабування функцій - це питання було закритим Питання № 41704 - Як і чому працюють нормалізація та масштабування функцій? У мене є два питання, зокрема, щодо дерев рішень: Чи є реалізація дерева …

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Розмір дерева в збільшенні градієнтного дерева
Збільшення градієнтного дерева, запропонованого Фрідманом, використовує дерева рішень з Jкінцевими вузлами (= листя) в якості базових учнів. Існує декілька способів виростити дерево точно за допомогою Jвузлів, наприклад, можна виростити дерево на глибині спочатку або вшир в першу чергу, ... Чи існує усталений спосіб вирощування дерев за допомогою точно Jкінцевих вузлів …
10 r  cart  boosting 

1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Дослідження відмінностей між групами населення
Скажімо, у нас є вибірка з двох груп: Aі B. Припустимо, що ці групи складаються з людей, і ми вирішимо описати людей за ознаками. Деякі з цих особливостей є категоричними (наприклад, вони їздять на роботу?), А деякі - числовими (наприклад, їх висота). Назвемо ці функції: . Ми збираємо сотні цих …

2
Чи завжди оцінювачі дерев упереджені?
Я роблю домашнє завдання з «Дерева рішень», і одне з питань, на яке я маю відповісти, - «Чому оцінювачі побудовані з дерев упереджено, і як мішок допомагає зменшити їх відмінність?». Тепер я знаю, що переоснащені моделі, як правило, мають дуже низький ухил, оскільки вони намагаються вмістити всі точки даних. І …
9 cart  bias 

2
Чи фіксують дерева CART взаємодії між передбачувачами?
У цьому документі стверджується, що в CART, оскільки бінарний розкол виконується по одному коваріату на кожному кроці, всі розщеплення є ортогональними, тому взаємодії між коваріатами не враховуються. Однак багато дуже серйозних посилань стверджують, навпаки, що ієрархічна структура дерева гарантує, що взаємодія між предикторами буде автоматично змодельована (наприклад, цей документ , …

2
Як оцінити корисність придатних для виживаних функцій
Я новачок у аналізі виживання, хоча маю певні знання щодо класифікації та регресії. Для регресії ми маємо статистику MSE та R квадрат. Але як можна сказати, що модель виживання A перевершує модель виживання B, крім деяких графічних графіків (крива КМ)? Якщо можливо, поясніть різницю прикладом (наприклад, пакет rpart в R). …

1
Як вибрати кількість розщеплень у rpart ()?
Я використовував rpart.controlдля minsplit=2та отримав наступні результати від rpart()функції. Щоб уникнути перевиконання даних, чи потрібно мені використовувати розбивки 3 або розбивки 7? Чи не слід використовувати спліт 7? Будь ласка, дай мені знати. Змінні, які фактично використовуються в будівництві дерев: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 …
9 r  cart  rpart 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.