Запитання з тегом «many-categories»

Категоричні змінні з великою кількістю рівнів та статистичні методи роботи з такими змінними (приклад: плавлене ласо).

6
Принциповий спосіб згортання категоріальних змінних з багатьма рівнями?
Які методи доступні для згортання (чи об'єднання) багатьох категорій до кількох, з метою використання їх як вхідних даних (прогнозів) у статистичній моделі? Розглянемо таку змінну, як студент коледжу (дисципліна, яку обирає студент). Це не упорядковане і категоричне, але потенційно воно може мати десятки різних рівнів. Скажімо, я хочу використовувати мажор …

6
Удосконалити класифікацію за допомогою багатьох категоричних змінних
Я працюю над набором даних з 200 000+ зразків і приблизно 50 особливостей на вибірку: 10 безперервних змінних, а інші ~ 40 - категоричні змінні (країни, мови, наукові галузі тощо). Для цих категоричних змінних у вас є, наприклад, 150 різних країн, 50 мов, 50 наукових галузей тощо ... Поки мій …

6
Проблеми з круговими діаграмами
Здається, все частіше обговорюється кругова діаграма. Основними аргументами проти цього, здається, є: Площа сприймається з меншою потужністю, ніж довжина. Кругові діаграми мають дуже низьке співвідношення «точка-піксель» Однак я думаю, що вони можуть бути якось корисні при зображенні пропорцій. Я погоджуюся використовувати таблицю в більшості випадків, але коли ви пишете бізнес-звіт, …

7
як представити географію чи поштовий індекс у моделі машинного навчання чи в системі рекомендацій?
Я будую модель, і я думаю, що географічне розташування, ймовірно, дуже добре спрогнозує мій цільовий змінний. У мене є поштовий індекс кожного з моїх користувачів. Я не зовсім впевнений, що найкращий спосіб включити поштовий індекс як функцію передбачувача у свою модель. Хоча поштовий індекс - це номер, він нічого не …

5
R 'randomForest не може обробити більше 32 рівнів. Що таке вирішення?
R-пакет randomForest R не може обробляти коефіцієнт з більш ніж 32 рівнями. Коли йому задано більше 32 рівнів, він видає повідомлення про помилку: Не може працювати з категоричними прогнозами з більш ніж 32 категоріями. Але у мене є кілька факторів. Деякі з них мають рівні 1000+, а деякі - 100+. …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Фіксований ефект проти випадкового ефекту, коли всі можливості включені в модель змішаних ефектів
У моделі змішаних ефектів рекомендується використовувати фіксований ефект для оцінки параметра, якщо всі можливі рівні включені (наприклад, і самці, і жінки). Далі рекомендується використовувати випадковий ефект для обліку змінної, якщо включені рівні - це лише випадкова вибірка з популяції (зарахували пацієнтів із Всесвіту можливих пацієнтів) і ви хочете оцінити середнє …

2
Кодування категоричних ознак до чисел для машинного навчання
Багато алгоритмів машинного навчання, наприклад нейронні мережі, розраховують мати справу з числами. Отже, коли у вас є категоричні дані, вам потрібно їх перетворити. Під категоричністю я маю на увазі, наприклад: Марки автомобілів: Audi, BMW, Chevrolet ... Ідентифікатори користувачів: 1, 25, 26, 28 ... Незважаючи на те, що ідентифікаційні дані користувачів …

2
Методи злиття / зменшення категорій у порядкових або номінальних даних?
Я намагаюся знайти спосіб зменшення кількості категорій у номінальних чи порядкових даних. Наприклад, скажімо, що я хочу побудувати регресійну модель на наборі даних, яка має ряд номінальних та порядкових факторів. Хоча у мене немає проблем з цим кроком, я часто стикаюся з ситуаціями, коли номінальна функція не має спостережень у …

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Зменшення кількості рівнів невпорядкованої категоричної змінної предиктора
Я хочу навчити класифікатор, скажімо, SVM, або випадковий ліс, або будь-який інший класифікатор. Однією з особливостей у наборі даних є категоріальна змінна з 1000 рівнями. Який найкращий спосіб зменшити кількість рівнів у цій змінній. У R є функція, що називається combine.levels()в пакеті Hmisc , яка поєднує в собі нечасті рівні, …

3
Проблеми з кодуванням із гарячим кодом та фіктивним кодуванням
Мені відомо про той факт, що категоричні змінні з k рівнями повинні бути кодовані змінними k-1 у фіктивній кодування (аналогічно для багатозначних категоріальних змінних). Мені було цікаво, якою проблемою є однокольорове кодування (тобто замість цього k змінних) через кодове кодування для різних методів регресії, в основному лінійної регресії, пеналізованої лінійної …

3
R пакет для комбінування рівнів факторів для обміну даними?
Цікаво, чи хтось перебігав пакет / функцію в R, який буде поєднувати рівні фактора, частка яких у всіх коефіцієнтах менша за деякий поріг? Зокрема, одним із перших етапів підготовки даних, який я веду, є згуртування рідких рівнів факторів разом (скажімо, на рівень, який називається "Інше"), які не складають принаймні 2% …

1
Пеніалізовані методи категоричних даних: поєднання рівнів у факторі
Пеналізовані моделі можна використовувати для оцінки моделей, де кількість параметрів дорівнює або навіть перевищує розмір вибірки. Така ситуація може виникнути в лінійних журнальних моделях великих розріджених таблиць категоричних даних або даних про кількість. У цих налаштуваннях часто також бажано або корисно згортання таблиць шляхом комбінування рівнів фактора, коли ці рівні …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.