Запитання з тегом «categorical-encoding»

Представлення категоричних змінних у вигляді наборів числових змінних. Необхідний у багатьох видах аналізу для них для обробки категоричних даних. Поширений приклад - використання категоричного предиктора в регресії / ANOVA за допомогою фіктивного кодування, ефекту кодування, кодування Гельмерта, визначених користувачем контрастів тощо.

6
Як називається «гаряче» кодування у науковій літературі?
Як називається оператор, який приймає категоричний вектор і перетворює його у двійкове представлення за допомогою однокольорового кодування? Мені цікаво, оскільки я пишу науковий документ і мені потрібна відповідна назва.

3
Змінна показника для двійкових даних: {-1,1} проти {0,1}
Я зацікавлений в лікувально-коваріат взаємодій в контексті експериментів / рандомізованих контрольованих досліджень, з бінарним призначення лікування індикатора .TTT Залежно від конкретного методу / джерела, я бачив і і для оброблених та необроблених суб'єктів відповідно.T={1,0}T={1,0}T=\{1,0\}T={1,−1}T={1,−1}T=\{1, -1\} Чи є якесь правило, коли використовувати або ?{1,0}{1,0}\{1,0\}{1,−1}{1,−1}\{1, -1\} Чим інтерпретація відрізняється?

3
Як поводитися з небінарними категоричними змінними в логістичній регресії (SPSS)
Мені доводиться робити бінарну логістичну регресію з безліччю незалежних змінних. Більшість з них є бінарними, але деякі категоричні змінні мають більше двох рівнів. Який найкращий спосіб боротися з такими змінними? Наприклад, для змінної з трьома можливими значеннями я припускаю, що потрібно створити дві фіктивні змінні. Тоді, в процесі поетапної регресії, …

4
Як статистично довести, чи стовпець має категоричні дані чи не використовує Python
У мене є фрейм даних в python, де мені потрібно знайти всі категоричні змінні. Перевірка типу стовпця не завжди працює, тому що intтип може бути також категоричним. Тож я шукаю допомоги у пошуку правильного методу тестування гіпотез, щоб визначити, категорія категорія чи ні. Я пробував нижче тесту чи-квадрата, але не …

1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Чому стовпець перехоплення в model.matrix замінює перший фактор?
Я намагаюся перетворити свій факторний стовпчик на фіктивні змінні: str(cards$pointsBin) # Factor w/ 5 levels ".lte100",".lte150",..: 3 2 3 1 4 4 2 2 4 4 ... labels <- model.matrix(~ pointsBin, data=cards) head(labels) # (Intercept) pointsBin.lte150 pointsBin.lte200 pointsBin.lte250 pointsBin.lte300 # 741 1 0 0 0 0 # 407 1 1 …

4
Як реалізувати фіктивну змінну за допомогою змінних n-1?
Якщо у мене є змінна з 4 рівнями, теоретично мені потрібно використовувати 3 фіктивні змінні. На практиці, як це насправді здійснюється? Чи використовую 0-3, чи використовую 1-3, а 4 залишаю порожнім? Будь-які пропозиції? ПРИМІТКА. Я буду працювати в Р. ОНОВЛЕННЯ: Що буде, якщо я просто використовую один стовпець, який використовує …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.