Запитання з тегом «categorical-data»

Категоричні (також їх називають номінальними) дані можуть приймати обмежену кількість можливих значень, званих категоріями. Категоричні значення "мітка", вони не "вимірюють". Будь ласка, використовуйте тег [ordinal-data] для дискретних, але упорядкованих типів даних.

3
Чи можу я скористатися множинною регресією, коли я змішав категоричні та безперервні прогнози?
Схоже, ви можете використовувати кодування для однієї категоріальної змінної, але у мене є дві категоріальні та одна безперервна змінна предиктора. Чи можу я використовувати для цього кілька регресій в SPSS, і якщо так, як? Дякую!

3
Які алгоритми вимагають однокольорового кодування?
Я ніколи не знаю, коли використовувати однокольорове кодування для не упорядкованих категоричних змінних, а коли не потрібно. Я використовую його, коли алгоритм використовує метрику відстані для обчислення подібності. Чи може хто-небудь дати загальне правило щодо того, які типи алгоритмів вимагатимуть, щоб не упорядковані категоричні ознаки були однокольоровими, а які - …

2
Чому R потрібно тривалий час, щоб підходити до моделі з багаторівневим коефіцієнтом?
Мені підходить модель з коефіцієнтом з багатьма рівнями, і для отримання R потрібне дуже довгий час. Чому це? Наприклад, якщо мені підходить регресія, щоб прогнозувати зарплату гравців, і включати фактор прогнозування для всіх національних гравців, це займе більше часу, ніж встановлення моделі зарплати гравців з безперервним прогнозувачем, як-от гравців висоти.

2
Коефіцієнт кореляції між (недихотомічною) номінальною змінною та числовою (інтервалом) або порядковою змінною
Я вже читав усі сторінки цього сайту, намагаючись знайти відповідь на свою проблему, але, здається, ніхто не формує мене ... Спочатку я поясню вам тип даних, з якими я працюю ... Скажімо, у мене є вектор масиву з кількома назвами міста, по одному для кожного з 300 користувачів. У мене …

1
Яка оптимальна функція відстані для індивідів, коли атрибути номінальні?
Я не знаю, яку функцію відстані між особами використовувати у випадку номінальних (не упорядкованих категоричних) атрибутів. Я читав підручник, і вони пропонують функцію простого узгодження, але деякі книги пропонують мені змінити номінальний на двійкові атрибути і використовувати коефіцієнт Жаккарда . Однак що робити, якщо значення номінального атрибута не дорівнюють 2? …

2
glmnet: Як зрозуміти багаточленну параметризацію?
Наступна проблема: Я хочу передбачити категоричну змінну відповіді з однією (або більше) категоричними змінними за допомогою glmnet (). Однак я не можу зрозуміти, що вихідний glmnet дає мені. Гаразд, спочатку сгенеруємо дві пов'язані категоріальні змінні: Створення даних p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] …

2
Як знайти міру кореляції між двома номінальними змінними?
Було проведено опитування, де люди обирали те, що використовують певний смайлик для представлення та в’їхали до своєї країни походження. Я переписав текстові відповіді на числові. Яку форму аналізу слід використовувати (бажано в SPSS), щоб перевірити рівень співвідношення між тим, звідки люди походять, та обраними ними представленнями?

2
Регресія, заснована, наприклад, на дні тижня
Мені потрібно трохи допомоги, щоб рухатись у правильному напрямку. З давніх пір я вивчив будь-яку статистику, і жаргон, схоже, змінився. Уявіть, що у мене є набір даних про автомобіль, таких як Час подорожі з міста А до міста Б Відстань від міста A до міста B Розмір двигуна Розмір взуття …

2
Колінеарність між категоричними змінними
Є багато про колінеарність щодо безперервних прогнозів, але не так багато, що я можу знайти на категоричних прогнозах. У мене дані цього типу проілюстровані нижче. Перший фактор - генетична змінна (кількість алелів), другий - категорія захворювання. Очевидно, що гени передують захворюванню і є фактором прояву симптомів, що призводять до діагностики. …

2
Чи слід проводити окремі регресії для кожної спільноти, чи спільнота може бути просто керуючою змінною в агрегованій моделі?
Я використовую модель OLS з постійною змінною індексу активів як DV. Мої дані агрегуються з трьох подібних спільнот у тісній географічній близькості. Незважаючи на це, я вважав важливим використовувати спільноту як контрольну змінну. Як виявляється, спільнота є значною на рівні 1% (t-бал -4,52). Спільнота - це номінальна / категоріальна змінна, …

2
Швидко оцініть (візуально) співвідношення між упорядкованими категоричними даними в R?
Я шукаю кореляції між відповідями на різні запитання в опитуванні ("гмм, давайте подивимося, чи відповідають відповіді на питання 11 кореспонденції з питаннями 78"). Усі відповіді категоричні (більшість з них варіюється від "дуже нещасних" до "дуже щасливих"), але деякі мають різний набір відповідей. Більшість з них можна вважати порядковими, тому розглянемо …

6
Як знайти підсумкову статистику для всіх унікальних комбінацій факторів у data.frame в R? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я хочу обчислити підсумок змінної у data.frame для кожної унікальної комбінації факторів у data.frame. Чи варто використовувати для цього plyr? Я все …

4
Кілька тестів на чи-квадрат
Я перехресні класифіковані дані в таблиці 2 x 2 x 6. Назвемо розміри response, Aі B. Я підхожу до логістичної регресії до даних з моделлю response ~ A * B. Аналіз відхилення цієї моделі говорить про те, що як терміни, так і їх взаємодія є важливими. Однак, дивлячись на пропорції …

1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
Як виконати залишковий аналіз для бінарних / дихотомічних незалежних предикторів при лінійній регресії?
Я виконую декілька лінійних регресій нижче в R, щоб передбачити прибуток на керований фонд. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Тут лише GRI та MBA є двійковими / дихотомічними предикторами; решта предикторів безперервні. Я використовую цей код для створення залишкових графіків для бінарних змінних. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.