Запитання з тегом «missing-data»

Коли в даних є відсутність інформації (прогалини), тобто не є повною. Отже, важливо враховувати цю особливість при виконанні аналізу або тесту.

4
Як визначити, чи значно відрізняються дві кореляції?
Я хочу визначити, який із двох наборів даних (B1, B2) краще співвідноситься (груші r) з іншим набором (A). У всіх наборах даних відсутні дані. Як я можу визначити, чи є істотна різниця отриманої кореляції чи ні? Наприклад, значення 8426 присутні як в А, так і в B1, r = 0,74. …

2
Чергові схеми зважування для мета-аналізу випадкових ефектів: відсутні стандартні відхилення
Я працюю над метааналізом випадкових ефектів, що охоплює ряд досліджень, які не повідомляють про стандартні відхилення; у всіх дослідженнях робиться звіт про розмір вибірки. Я не вірю, що неможливо наблизити або замінити відсутні дані SD. Як має бути мета-аналіз, який використовує необроблені (нестандартні) середні відмінності як розмір ефекту, зважився, коли …

2
Включення більш детальних пояснювальних змінних у часі
Я намагаюся зрозуміти, як я можу найкраще моделювати змінну, де з часом я отримую все більш детальні прогнози. Наприклад, розглянемо моделювання коефіцієнтів відновлення заборгованості з дефолтом. Припустимо, у нас є набір даних із 20-річними даними, і в перші 15 років ми знаємо лише, чи була позика під заставу чи ні, …

1
Прогнозування з randomForest (R), коли для деяких входів відсутні значення (NA)
У мене є точна randomForestмодель класифікації, яку я хотів би використовувати в додатку, який передбачає клас нового випадку. У новому випадку неминуче відсутні значення. Прогнозуйте, що НС не працюватиме як така. Як мені це робити тоді? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Множинна регресія з відсутньою змінною предиктора
Припустимо, нам надають набір даних форми (y,x1,x2,⋯,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) і (y,x1,x2,⋯,xn−1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1}). Нам дається завдання передбачитиyyy на основі значень xxx. Ми оцінюємо дві регресії, де: yy=f1(x1,⋯,xn−1,xn)=f2(x1,⋯,xn−1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} Ми також оцінюємо регресію, яка прогнозує значення xnxnx_{n} на основі значень (x1,⋯,xn−1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), …

4
Як боротися з розривами / NaN в даних часових рядів при використанні Matlab для автокореляції та нейронних мереж?
У мене є часовий ряд вимірювань (висоти - одновимірний ряд). У період спостереження процес вимірювання за деякий час знижувався. Таким чином, отримані дані є вектором з NaN, де у даних були прогалини. Використовуючи MATLAB, це викликає у мене проблеми при обчисленні автокореляції ( autocorr) та застосуванні нейронних мереж ( nnstart). …

3
Обробка рівнів категорійних змінних "Не знаю / відмовлено"
Я моделюю прогноз діабету за допомогою логістичної регресії. Використовуваний набір даних - це система спостереження за поведінковим фактором ризику (BRFSS) Центру контролю захворювань (CDC). Однією з незалежних змінних є високий кров'яний тиск. Він категоричний з такими рівнями "Так", "Ні", "Не знаю / відмовляюся". Чи слід видаляти ці рядки за допомогою …

7
Кореляція між двома змінними неоднакового розміру
У проблемі, над якою я працюю, у мене є дві випадкові величини, X і Y. Мені потрібно розібратися, наскільки тісно співвідносяться вони, але вони мають різні виміри. Ранг простору рядків X становить 4350, а ранговий простір рядків Y суттєво більший у десятках тисяч. І X, і Y мають однакову кількість …

2
Як визначити, чи підходить модель виживання з відсутніми даними?
Я трохи спрощуючи, я маю близько мільйона записів, які фіксують час входу та виходу людей у ​​систему, яка охоплює близько десяти років. Кожен запис має час входу, але не кожен запис має час виходу. Середній час роботи в системі становить ~ 1 рік. Часи виходу відсутні через дві причини: Людина …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.