Запитання з тегом «categorical-data»

Категоричні (також їх називають номінальними) дані можуть приймати обмежену кількість можливих значень, званих категоріями. Категоричні значення "мітка", вони не "вимірюють". Будь ласка, використовуйте тег [ordinal-data] для дискретних, але упорядкованих типів даних.

1
Інтерпретація виходу .L & .Q від негативного біноміального GLM з категоричними даними
Я щойно запустив негативний біноміальний GLM, і це вихід: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 …

3
центрування та масштабування фіктивних змінних
У мене є набір даних, який містить як категоричні, так і безперервні змінні. Мені порадили перетворювати категоріальні змінні у бінарні змінні для кожного рівня (тобто A_level1: {0,1}, A_level2: {0,1}) - я думаю, що деякі називають це "фіктивними змінними". З огляду на це, чи не введено в оману центр і масштабувати …

6
Випадковий ліс: як поводитися з новими рівнями факторів у тестовому наборі?
Я намагаюся робити прогнози, використовуючи випадкову лісову модель у Р. Однак я отримую помилки, оскільки деякі фактори мають різні значення в тестовому наборі, ніж у навчальному наборі. Наприклад, коефіцієнт Cat_2має значення 34, 68, 76тощо у тестовому наборі, які не відображаються у навчальному наборі. На жаль, я не маю контролю над …

2
Як перетворити порядкові дані з анкети в належні інтервальні дані?
Чи існують якісь прямі методи перетворення даних порядкового рівня в інтервальний рівень (так само, як це можна зробити і навпаки)? І performable в Excel або SPSS? Маючи дані, скажімо: 10 питань на порядковому рівні (скажімо, шкала 0-5, де 0 = "зовсім не", 5 = "весь час"), я хочу перетворити їх, …

4
Як узагальнити категоричні дані?
Я боровся з наступною проблемою, сподіваюсь, це легка проблема для статистиків (я програміст із деяким впливом на статистику). Мені потрібно узагальнити відповіді на опитування (для управління). В опитуванні є 100+ питань, згрупованих у різних областях (з приблизно 5 до 10 питань на область). Усі відповіді є категоричними (у порядковому масштабі …

2
Захоплення сезонності за допомогою множинної регресії для щоденних даних
У мене є щоденні дані про продажі товару, що є дуже сезонним. Я хочу зафіксувати сезонність у регресійній моделі. Я читав, що якщо у вас є дані щокварталу чи щомісяця, у такому випадку ви можете створити 3 та 11 фіктивних змінних відповідно - але чи можу я мати справу з …

2
Розуміння створення фіктивних (ручних або автоматизованих) змінних у GLM
Якщо у формулі glm використовується факторна змінна (наприклад, стать із рівнями M і F), ​​створюються фіктивні змінні (і), які можна знайти в резюме моделі glm разом із пов'язаними з ними коефіцієнтами (наприклад, genderM) Якщо замість того, щоб покластися на R, поділити коефіцієнт таким чином, коефіцієнт кодується в ряд числових змінних …

2
Найкращі практики кодування категоричних ознак для дерев рішень?
При кодуванні категоричних ознак для лінійної регресії існує правило: кількість манекенів має бути на одну меншу, ніж загальна кількість рівнів (щоб уникнути колінеарності). Чи існує подібне правило для дерев рішень (мішковане, підсилене)? Я запитую це тому, що стандартною практикою в Python, здається, є розширення nрівнів на nманекени (sklearns ' OneHotEncoderабо …

1
Звичайна логістична регресія в Python
Я хотів би провести порядкову логістичну регресію в Python - для змінної відповіді з трьома рівнями та з кількома пояснювальними факторами. statsmodelsПакет підтримує двійковий логит і модель полиномиального логіт (MNLogit), але не впорядковану логит. Оскільки основна математика не така вже й інша, мені цікаво, чи можна її легко реалізувати, використовуючи …

3
Максимальна оцінка вірогідності спільного розподілу з урахуванням лише граничних підрахунків
Нехай - спільний розподіл двох категоріальних змінних , з . Скажімо, вибірок було взято з цього розподілу, але нам дано лише граничні підрахунки, а саме для : X , Y x , y ∈ { 1 , … , K } n j = 1 , … , Kpx,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j),Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Інверсія ягід
У мене є велика сукупна ринкова інформація про продажі вина в США, і я хотів би оцінити попит на певні вина високої якості. Ці частки ринку в основному були отримані з випадкової корисної моделі форми Ui j t= X'j tβ- α рj t+ ξj t+ ϵij t≡ δjt+ ϵj tUijт=Хjт'β-αpjт+ξjт+ϵijт≡δjт+ϵjтU_{ijt} …

3
Чи застосовується процедура Mundlak з фіксованими ефектами для логістичної регресії з манекенами?
У мене є набір даних із 8000 кластерами та 4 мільйонами спостережень. На жаль, моє статистичне програмне забезпечення, Stata, працює досить повільно, коли використовує свою панельну функцію даних для логістичної регресії: xtlogitнавіть з 10% підпробою. Однак при використанні непанельної logitфункції результати з’являються набагато швидше. Тому я можу отримати користь від …

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
Відповідний спосіб поводження з 3-х рівневою таблицею надзвичайних ситуацій
У мене є трирівнева таблиця на випадок надзвичайних ситуацій, що містить дані про декілька видів, рослину-господаря, з якої вони були зібрані, і чи відбулося це збирання в дощовий день (це насправді має значення!). Використовуючи R, підроблені дані можуть бути приблизно подібними: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.