Запитання з тегом «categorical-data»

Категоричні (також їх називають номінальними) дані можуть приймати обмежену кількість можливих значень, званих категоріями. Категоричні значення "мітка", вони не "вимірюють". Будь ласка, використовуйте тег [ordinal-data] для дискретних, але упорядкованих типів даних.

6
Чи можна застосувати аналіз основних компонентів до наборів даних, що містять суміш безперервних і категоричних змінних?
У мене є набір даних, який містить як безперервні, так і категоричні дані. Я аналізую, використовуючи PCA, і мені цікаво, чи добре включати категоричні змінні у складі аналізу. Я розумію, що PCA можна застосовувати лише до постійних змінних. Це правильно? Якщо їх не можна використовувати для категоричних даних, які альтернативи …

6
Кореляції з не упорядкованими категоричними змінними
У мене є кадр даних з багатьма спостереженнями та багатьма змінними. Деякі з них є категоричними (не упорядкованими), а інші - числовими. Я шукаю асоціацій між цими змінними. Мені вдалося обчислити кореляцію для числових змінних (кореляція Спірмена), але: Я не знаю, як виміряти співвідношення між невпорядкованими категоричними змінними. Я не …

1
Кореляція між номінальною (IV) та суцільною (DV) змінною
У мене є номінальна змінна (різні теми розмови, кодовані як тема0 = 0 тощо) та ряд змінних масштабів (DV), таких як тривалість розмови. Як я можу отримати кореляції між номінальною та масштабною змінними?

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Принциповий спосіб згортання категоріальних змінних з багатьма рівнями?
Які методи доступні для згортання (чи об'єднання) багатьох категорій до кількох, з метою використання їх як вхідних даних (прогнозів) у статистичній моделі? Розглянемо таку змінну, як студент коледжу (дисципліна, яку обирає студент). Це не упорядковане і категоричне, але потенційно воно може мати десятки різних рівнів. Скажімо, я хочу використовувати мажор …

8
Чи є сенс ставитись до категоричних даних як до безперервних?
Відповідаючи на це запитання щодо дискретних та безперервних даних, я з глибоким твердженням стверджував, що рідко є сенс трактувати категоричні дані як безперервні. Зважаючи на це, це здається само собою зрозумілим, але інтуїція часто є поганим посібником для статистики, або, принаймні, моя. Тож зараз мені цікаво: це правда? Або є …

1
Кодування "гаряче проти фіктивного" в Scikit-learn
Існує два різні способи кодування категоричних змінних. Скажімо, одна категоріальна змінна має n значень. Одно гаряче кодування перетворює його в n змінних, тоді як фіктивне кодування перетворює його в n-1 змінні. Якщо у нас є k категоріальні змінні, кожна з яких має n значень. Одне гаряче кодування закінчується змінними kn …

7
Графік залежності двох порядкових змінних
Що є відповідним графіком для ілюстрації зв’язку між двома порядковими змінними? Я можу придумати кілька варіантів: Графік розсіювання з доданим випадковим тремтінням, щоб зупиняти точки, приховуючи один одного. Мабуть, стандартна графіка - Minitab називає це "індивідуальним графіком значень". На мою думку, це може ввести в оману, оскільки візуально заохочує своєрідну …

4
Що таке контрастна матриця?
Що саме є контрастною матрицею (термін, що стосується аналізу з категоричними предикторами) і як саме вказана контрастна матриця? Тобто, що таке стовпці, що таке рядки, які обмеження в цій матриці і що означає число у стовпці jта рядку i? Я спробував заглянути в документи та в Інтернеті, але, схоже, всі …

5
Кореляції між неперервними та категоричними (номінальними) змінними
Я хотів би знайти співвідношення між суцільною (залежною змінною) та категоріальною (номінальною: стать, незалежна змінна) змінною. Постійні дані зазвичай не поширюються. Раніше я обчислював це за допомогою Spearman . Однак мені сказали, що це неправильно.ρρ\rho Під час пошуку в Інтернеті я виявив, що boxplot може дати уявлення про те, наскільки …

5
Попередження в R - наближення Chi-квадрата може бути неправильним
У мене є дані, що показують результати вступного іспиту з пожежника. Я перевіряю гіпотезу про те, що результати іспитів та етнічна приналежність не є взаємно незалежними. Щоб перевірити це, я провів тест-квадрат Пірсона в Р. Результати показують, що я очікував, але він дав попередження, що "" In chisq.test(a) : Chi-squared …

6
Удосконалити класифікацію за допомогою багатьох категоричних змінних
Я працюю над набором даних з 200 000+ зразків і приблизно 50 особливостей на вибірку: 10 безперервних змінних, а інші ~ 40 - категоричні змінні (країни, мови, наукові галузі тощо). Для цих категоричних змінних у вас є, наприклад, 150 різних країн, 50 мов, 50 наукових галузей тощо ... Поки мій …

2
Мультиноміальна логістична регресія проти бінарної логістичної регресії один проти одного
Скажімо, у нас є залежна змінна з кількома категоріями та набором незалежних змінних. YYY Які переваги мультиноміальної логістичної регресії перед сукупністю бінарних логістичних регресій (тобто схема «один проти відпочинку» )? Під набором двійкової логістичної регресії я маю на увазі, що для кожної категорії ми будуємо окрему модель бінарної логістичної регресії …

3
Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?
Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

1
Робота аналізу основних компонентів або факторного аналізу на двійкові дані
У мене є набір даних з великою кількістю відповідей Так / Ні. Чи можна використовувати основні компоненти (PCA) або будь-який інший аналіз зменшення даних (наприклад, факторний аналіз) для цього типу даних? Підкажіть, будь ласка, як мені це робити за допомогою SPSS.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.