Запитання з тегом «data-imputation»

Посилається на загальний клас методів, використовуваних для "заповнення" відсутніх даних. Методи, які використовуються для цього, зазвичай пов'язані з інтерполяцією (http://en.wikipedia.org/wiki/Interpolation) і вимагають припущень щодо того, чому дані відсутні (наприклад, "відсутні випадково")

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret та NAs
Я дуже люблю піклуватися про його здатність до налаштування параметрів та рівномірний інтерфейс, але я помітив, що він завжди потребує повних наборів даних (тобто без NA), навіть якщо застосована "гола" модель дозволяє НС. Це дуже турбує, що стосовно цього слід застосовувати трудові методи імпутації, які в першу чергу не потрібні. …

4
Імпутація пропущених значень для PCA
Я використовував цю prcomp()функцію для виконання PCA (аналіз основних компонентів) в Р. Однак у цій функції є помилка, така що na.actionпараметр не працює. Я попросив допомоги щодо stackoverflow ; двоє користувачів там запропонували два різні способи поводження з NAцінностями. Однак проблема обох рішень полягає в тому, що коли є NAзначення, …

3
Як комбінувати довірчі інтервали для дисперсійної складової моделі змішаних ефектів при використанні множинної імпутації
Логіка багаторазової імпутації (ІМ) полягає в тому, щоб присвоїти пропущені значення не один раз, а декілька (як правило, М = 5) разів, в результаті чого було завершено набір даних M. Потім завершені набори даних аналізуються методами повних даних, за допомогою яких оцінювання М та їх стандартні помилки поєднуються за допомогою …

5
До 5-бальної шкали Лікерта додано 6-й варіант відповіді ("я не знаю"). Чи втрачаються дані?
Мені потрібно трохи допомогти в пошкодженні даних з анкети. Один з моїх колег застосував анкету, але ненавмисно, замість того, щоб використати оригінальну 5-бальну шкалу Лікерта (категорично не погоджуюсь із сильною згодою), він вставив 6-ю відповідь у шкалу. І, що ще гірше, шостий варіант відповіді… “Я не знаю”. Проблема полягає у …

2
Як заповнити відсутні дані в часових рядах?
У мене є великий набір даних про забруднення, які реєструються кожні 10 хвилин протягом двох років, однак у даних є ряд прогалин (включаючи деякі, які тривають протягом декількох тижнів). Дані, здається, є досить сезонними, і існує велика різниця протягом дня порівняно з ніччю, коли значення не мають великої різниці, а …

1
Об'єднання калібрувальних графіків після багаторазової імпутації
Я хотів би поради щодо об'єднання графіків / статистичних даних щодо калібрування після багаторазової імпутації. Налагоджуючи розробку статистичних моделей з метою прогнозування майбутньої події (наприклад, використовуючи дані з лікарняних записів для прогнозування виживання після лікарні або після подій у лікарні), можна уявити, що є дещо до безлічі відомостей. Множинна імпутація …

3
Методи вирішення проблеми відсутності даних у машинному навчанні
Практично будь-яка база даних, яку ми хочемо передбачити, використовуючи алгоритми машинного навчання, знайде відсутні значення для деяких характеристик. Існує кілька підходів для вирішення цієї проблеми, щоб виключити рядки, у яких відсутні значення, поки вони не заповняться середніми значеннями характеристик. Я хотів би скористатися дещо більш надійним підходом, який би в …

5
Імпутація пакетів KNN R
Я шукаю пакет імпутації KNN. Я дивився на пакет імпутації ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), але чомусь функція імпутації KNN (навіть якщо наслідувати приклад із опису) лише здається присвоїти нульові значення (як зазначено нижче). Я озирався, але ще не можу щось знайти, і тому цікавився, чи є у когось інші пропозиції щодо …

2
використання інформації про сусідів для введення даних або пошуку даних (у R)
У мене є набір даних з припущенням, що найближчі сусіди є найкращими прогнозами. Просто прекрасний приклад двостороннього візуалізації градієнта- Припустимо, у нас є випадок, коли мало значень не вистачає, ми можемо легко передбачити, виходячи з сусідів та тенденції. Відповідна матриця даних у R (макетний приклад для тренування): miss.mat <- matrix …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Використання фільтрів Калмана для імпулювання пропущених значень у часових рядах
Мене цікавить, як можна використовувати фільтри Kalman для імпультування пропущених значень у даних часових рядів. Чи це також застосовно, якщо відсутні деякі послідовні моменти часу? Я не можу багато знайти на цю тему. Будь-які пояснення, коментарі та посилання вітаються та цінуються!

1
XGBoost може обробляти відсутні дані на етапі прогнозування
Нещодавно я переглянув алгоритм XGBoost і помітив, що цей алгоритм може обробляти відсутні дані (не вимагаючи імпутації) на етапі навчання. Мені було цікаво, чи може XGboost обробляти відсутні дані (не вимагаючи імпутації), коли він використовується для прогнозування нових спостережень або необхідно імпутувати відсутні дані. Заздалегідь спасибі.

4
Як поводитися з відсутніми значеннями, щоб підготувати дані для вибору функцій за допомогою LASSO?
Моя ситуація: невеликий розмір зразка: 116 двійкова змінна результат довгий список пояснювальних змінних: 44 пояснювальні змінні не надходили з моєї голови; їх вибір ґрунтувався на літературі. більшість випадків у вибірці та більшість змінних мають відсутні значення. Вибраний підхід до вибору функцій: LASSO Пакет glmnet R не дозволить мені запустити програму …

3
Яка перевага імпутації над побудовою кількох моделей у регресії?
Цікаво, чи хтось міг би дати деяке уявлення про те, чому імпутація відсутніх даних краще, ніж просто побудова різних моделей для випадків із відсутніми даними. Особливо у випадку [узагальнених] лінійних моделей (я, можливо, бачу, що в нелінійних випадках все по-іншому) Припустимо, у нас є основна лінійна модель: Y= β1Х1+ β2Х2+ …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.