Запитання з тегом «stratification»

Методика вибірки, при якій популяція, що представляє інтерес, розподіляється на підмножини ("шари") на основі характеристик, відомих у всіх одиницях перед вибіркою.

3
Розуміння стратифікованої перехресної перевірки
Яка різниця між стратифікованою перехресною валідацією та перехресною валідацією ? У Вікіпедії сказано: У стратифікованій перехресній валідації k-кратної складки вибираються таким чином, щоб середнє значення відгуку було приблизно рівним у всіх складках. У випадку дихотомічної класифікації це означає, що кожна складка містить приблизно однакові пропорції двох типів етикетки класів. Але …

2
Навіщо використовувати стратифіковану перехресну перевірку? Чому це не шкодить вигоди, пов'язаному з дисперсією?
Мені сказали, що корисно використовувати стратифіковану перехресну перевірку, особливо коли класи відповідей є неврівноваженими. Якщо одна мета перехресної перевірки - допомогти врахувати випадковість нашого вихідного зразка навчальних даних, то, безумовно, зробити так, щоб кожен складник мав однаковий розподіл класів, буде проти цього, якщо ви не впевнені, що ваш оригінальний навчальний …

1
Переваги стратифікованої та випадкової вибірки для генерування навчальних даних у класифікації
Мені хотілося б знати, чи є якісь / якісь переваги використання стратифікованого вибірки замість випадкової вибірки під час поділу оригінального набору даних на навчальний та тестовий набір для класифікації. Крім того, чи вводить стратифікований вибірковий отвір більше класифікації в класифікатор, ніж випадковий вибірки Додаток, для якого я хотів би використовувати …

1
Чи відрізняється відповідність Cox-моделі з прошарком і взаємодією страти-коваріату від встановлення двох моделей Кокса?
У регресійному моделюванні стратегій Гаррелла (друге видання) є розділ (S. 20.1.7), де обговорюються моделі Кокса, включаючи взаємодію між коваріатом, основний вплив якого на виживання ми хочемо оцінити також (вік у прикладі нижче) та коваріат, основний ефект якого ми не хочемо оцінювати (стать у наведеному нижче прикладі). Конкретно: припустимо, що в …

2
Альтернатива емпіричного розподілу
BOUNTY: Повна винагорода буде присуджена тому, хто подасть посилання на будь-який опублікований документ, який використовує або згадує оцінювач нижче.F~F~\tilde{F} Мотивація: Цей розділ для вас, мабуть, не важливий, і я підозрюю, що він не допоможе вам отримати винагороду, але оскільки хтось запитав про мотивацію, ось над чим я працюю. Я працюю …

1
Стратифікована класифікація з випадковими лісами (або іншим класифікатором)
Отже, у мене є матриця розміром приблизно 60 х 1000. Я розглядаю її як 60 об'єктів з 1000 особливостями; 60 об’єктів об’єднані в 3 класи (a, b, c). 20 предметів у кожному класі, і ми знаємо справжню класифікацію. Мені хотілося б вивчити під контролем цей набір з 60 прикладів навчання, …

2
Відбір проб із заміною на R randomForest
Реалізація randomForest не дозволяє відібрати вибірку за кількістю спостережень, навіть при вибірці з заміною. Чому це? Добре працює: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Що я хочу зробити: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) …

3
Багаторівнева модель проти окремих моделей для кожного рівня
Які переваги та недоліки роботи окремих моделей проти багаторівневого моделювання? Більш конкретно, припустимо, у дослідженні обстежували пацієнтів, які вкладаються у практику лікарів, що вкладаються у країни. Які переваги / недоліки використання окремих моделей для кожної країни порівняно з трирівневою вкладеною моделлю?

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Видаліть дублікати з навчального набору для класифікації
Скажімо, у мене є ряд рядків для проблеми класифікації: Х1, . . .ХN, YХ1,...ХN,YX_1, ... X_N, Y Де Х1, . . . ,ХNХ1,...,ХNX_1, ..., X_N є ознаками / провісниками та YYY - клас, до якого належить поєднання функцій рядка. Багато комбінацій функцій та їх класи повторюються в наборі даних, який …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.