Запитання з тегом «missing-data»

Коли в даних є відсутність інформації (прогалини), тобто не є повною. Отже, важливо враховувати цю особливість при виконанні аналізу або тесту.

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Відповідність балів схильності після багаторазової імпутації
Я посилаюся на цей документ: Hayes JR, Groner JI. "Використання декількох оцінок імпутації та схильності для тестування впливу автомобільних сидінь та ременів безпеки на ступінь тяжкості травми, отриманої за даними реєстру травм." J Педіатр Сурґ. 2008 р., 43 (5): 924–7. У цьому дослідженні було проведено багаторазову імпутацію для отримання 15 …

5
Чому деякі люди використовують -999 або -9999 для заміни відсутніх значень?
У мене є набір даних. Є багато відсутніх значень. Для деяких стовпців відсутнє значення було замінено на -999, а для інших стовпців значення пропущене було позначено як "NA". Чому б ми використовували -999 для заміни відсутнього значення?

3
Як R обробляє пропущені значення в мкм?
Я хотів би регресувати вектор B проти кожного зі стовпців у матриці А. Це тривіально, якщо відсутні дані, але якщо матриця A містить відсутні значення, то моя регресія проти A обмежена, щоб включати лише рядки, де всі значення присутні ( поведінка na.omit за замовчуванням ). Це дає неправильні результати для …

3
R: Випадковий ліс, який кидає NaN / Inf у помилці "виклику іноземної функції", незважаючи на відсутність набору даних NaN [закритий]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я використовую caret, щоб запустити перехрещений випадковий ліс над набором даних. Змінна Y - фактор. У моєму наборі даних немає NaN, Inf …

3
R caret та NAs
Я дуже люблю піклуватися про його здатність до налаштування параметрів та рівномірний інтерфейс, але я помітив, що він завжди потребує повних наборів даних (тобто без NA), навіть якщо застосована "гола" модель дозволяє НС. Це дуже турбує, що стосовно цього слід застосовувати трудові методи імпутації, які в першу чергу не потрібні. …

5
Алгоритми машинного навчання для обробки відсутніх даних
Я намагаюся розробити модель прогнозування, використовуючи великі клінічні дані, включаючи лабораторні значення. Простір даних розрізнений з 5-ти зразками та 200 змінними. Ідея полягає у ранжуванні змінних за допомогою методу вибору функцій (IG, RF тощо) та використання функцій вищого рейтингу для розробки прогнозної моделі. Хоча вибір можливостей іде добре з підходом …

2
Чому алгоритм максимізації очікування гарантовано збігається з локальним оптимумом?
Я прочитав пару пояснень алгоритму ЕМ (наприклад, з розпізнавання шаблонів Бішопа та машинного навчання та з першого курсу з машинного навчання Роджера та Героламі). Виведення ЕМ нормально, я це розумію. Я також розумію, чому алгоритм щось прикриває: на кожному кроці ми вдосконалюємо результат і ймовірність обмежується 1,0, тому, використовуючи простий …

4
Оцінка максимальної вірогідності ЕМ для розподілу Вейбулла
Примітка: я публікую запитання колишнього мого студента, який не може самостійно опублікувати з технічних причин. З огляду на зразок з розподілу Weibull з pdf є корисне відсутність змінної подання і, отже, пов'язаний з ним алгоритм EM (очікування-максимізація), який можна використовувати для пошуку MLE з , а не з використанням прямого …

4
Імпутація пропущених значень для PCA
Я використовував цю prcomp()функцію для виконання PCA (аналіз основних компонентів) в Р. Однак у цій функції є помилка, така що na.actionпараметр не працює. Я попросив допомоги щодо stackoverflow ; двоє користувачів там запропонували два різні способи поводження з NAцінностями. Однак проблема обох рішень полягає в тому, що коли є NAзначення, …

1
Як алгоритми навчання дерев рішень поводяться з відсутніми значеннями (під кришкою)
Назвіть методи, якими алгоритми навчання дерев рішень використовують для боротьби з відсутніми значеннями. Чи просто вони заповнюють слот, використовуючи значення, яке називається відсутнім? Спасибі.

5
Статистичний підхід для визначення, якщо дані відсутні випадково
У мене є великий набір функціональних векторів, які я буду використовувати для атаки на проблему бінарної класифікації (використовуючи scikit learn in Python). Перш ніж почати замислюватися над імпутацією, мені цікаво спробувати визначити з решти частин даних, чи відсутні дані "випадково відсутні" або відсутні як випадково. Який розумний спосіб підійти до …

2
Як я можу об'єднати задні засоби та достовірні інтервали після багаторазової імпутації?
Я використовував багаторазову імпутацію, щоб отримати ряд завершених наборів даних. Я використовував байєсівські методи для кожного із завершених наборів даних для отримання заднього розподілу параметра (випадковий ефект). Як можна об'єднати / об'єднати результати для цього параметра? Більше контексту: Моя модель є ієрархічною у розумінні окремих учнів (одне спостереження на одного …

1
Різниця між відсутніми даними та розрідженими даними в алгоритмах машинного навчання
Які основні відмінності між розрідженими даними та відсутніми даними? І як це впливає на машинне навчання? Більш конкретно, який вплив мають рідкісні та відсутні дані на алгоритми класифікації та тип регресії (прогнозування чисел) алгоритмів. Я говорю про ситуацію, коли відсоток відсутніх даних є значним, і ми не можемо скинути рядки, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.