Запитання з тегом «multiple-imputation»

Множинна імпутація відноситься до набору стохастичних процедур імпутації, спрямованих на збереження багатоваріантних особливостей даних

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R: Випадковий ліс, який кидає NaN / Inf у помилці "виклику іноземної функції", незважаючи на відсутність набору даних NaN [закритий]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я використовую caret, щоб запустити перехрещений випадковий ліс над набором даних. Змінна Y - фактор. У моєму наборі даних немає NaN, Inf …

4
Багаторазова імпутація та вибір моделі
Множинна імпутація є досить простою, коли у вас є апріорна лінійна модель, яку ви хочете оцінити. Однак справи здаються дещо складнішими, коли ви насправді хочете зробити якийсь вибір моделі (наприклад, знайти "найкращий" набір змінних прогнозів з більшого набору змінних кандидатів - я маю на увазі конкретно LASSO та дробові поліноми, …

2
Багаторазова імпутація змінних результатів
У мене є набір даних про випробування на сільському господарстві. Моя змінна відповідь - це коефіцієнт відповіді: log (обробка / контроль). Мене цікавить, що опосередковує різницю, тому я виконую метарегресії RE (не зважені, тому що видається досить зрозумілим, що розмір ефекту не співвідноситься з відхиленням оцінок). Кожне дослідження повідомляє про …

3
Імпутація до або після розбиття на поїзд та випробування?
У мене є набір даних з N ~ 5000 і близько 1/2 відсутня принаймні одна важлива змінна. Основним аналітичним методом будуть пропорційні небезпеки Кокса. Я планую використовувати багаторазову імпутацію. Я також буду розбиватися на поїзд і тестовий набір. Чи слід розділяти дані, а потім імпультувати окремо, або імпутувати, а потім …

1
Об'єднання калібрувальних графіків після багаторазової імпутації
Я хотів би поради щодо об'єднання графіків / статистичних даних щодо калібрування після багаторазової імпутації. Налагоджуючи розробку статистичних моделей з метою прогнозування майбутньої події (наприклад, використовуючи дані з лікарняних записів для прогнозування виживання після лікарні або після подій у лікарні), можна уявити, що є дещо до безлічі відомостей. Множинна імпутація …

2
використання інформації про сусідів для введення даних або пошуку даних (у R)
У мене є набір даних з припущенням, що найближчі сусіди є найкращими прогнозами. Просто прекрасний приклад двостороннього візуалізації градієнта- Припустимо, у нас є випадок, коли мало значень не вистачає, ми можемо легко передбачити, виходячи з сусідів та тенденції. Відповідна матриця даних у R (макетний приклад для тренування): miss.mat <- matrix …

5
Багаторазова імпутація пропущених значень
Я хотів би використовувати імпутацію для заміни відсутніх значень у моєму наборі даних за певних обмежень. Наприклад, я хотів би, щоб імпульована змінна x1була більшою або дорівнює сумі двох інших моїх змінних, скажімо, x2і x3. Я також хочу, x3щоб мене вводили будь-який 0або, >= 14і я хочу, x2щоб він був …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Як я можу об'єднати завантажені р-значення у множинні імпульсованих наборів даних?
Мене хвилює проблема, що я хотів би завантажувати p-значення для оцінки з множини імпульсованих (MI) даних, але мені незрозуміло, як поєднувати р-значення для МІ-множин.θθ\theta Для наборів даних ІМ стандартний підхід для досягнення загальної дисперсії оцінок використовує правила Рубіна. Дивіться тут огляд об’єднання наборів даних MI. Квадратний корінь загальної дисперсії служить …

2
Як отримати об'єднані значення p на тестах, виконаних у декількох наборах даних?
Використовуючи Amelia в R, я отримав декілька імпутованих наборів даних. Після цього я провів повторну перевірку вимірювань у SPSS. Тепер я хочу об'єднати результати тестів. Я знаю, що я можу використовувати правила Рубіна (реалізовані через будь-який пакет множинних імпутацій в R) для об'єднання засобів і стандартних помилок, але як я …

2
Чи слід в довгостроковому дослідженні зараховувати результат Y, виміряний у часі 2, для осіб, втрачених для подальшого спостереження?
У мене є повторні заходи у 2 рази в вибірці людей. Наразі 18 тис. Людей на час 1, а 13 к на час 2 (5000 втрачено для подальшого спостереження). Я хочу регресувати результат Y, виміряний у часі 2 (а результат не вдається виміряти під час 1) на множині предикторів X, …

2
Як покращити час роботи для внесення даних R MICE
Моє запитання коротко: чи існують методи покращити час роботи R MICE (внесення даних)? Я працюю з набором даних (30 змінних, 1,3 мільйона рядків), який містить (цілком випадково) відсутні дані. Близько 8% спостережень у приблизно 15 із 30 змінних містять НС. Для того щоб імпулювати відсутні дані, я виконую функцію MICE, …


1
Множинна регресія з відсутньою змінною предиктора
Припустимо, нам надають набір даних форми (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) і (y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1}). Нам дається завдання передбачитиyyy на основі значень xxx. Ми оцінюємо дві регресії, де: yy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} Ми також оцінюємо регресію, яка прогнозує значення xnxnx_{n} на основі значень (x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.