Статистика та великі дані categorical-data

2

Чи можливо створити сюжет паралельних множин за допомогою R?

Заблокований . Це запитання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. Завдяки питанню Tormod (розміщеному тут ) я натрапив на сюжет паралельних наборів . Ось приклад того, як це виглядає: (Це візуалізація набору даних "Титанік". Показано, наприклад, …

16 r data-visualization categorical-data interactive-visualization

4

Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій

Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

"Змінна манекена" проти "змінної індикатора" для номінальних / категоричних даних

"Змінна манекен" та "змінна індикатора" - це мітки, що часто використовуються для опису належності до категорії з кодуванням 0/1; зазвичай 0: Не є членом категорії, 1: Член категорії. 26.11.2014 швидкий пошук на scilar.google.com (із додаються цитатами) виявляє, що "фіктивна змінна" використовується приблизно в 318000 статтях, а "змінна показник" використовується приблизно …

15 categorical-data terminology categorical-encoding

1

Яка інтуїція за обмінними зразками під нульовою гіпотезою?

Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Змішування безперервних та бінарних даних з лінійним SVM?

Тож я грав із SVM, і мені цікаво, чи це добре робити: У мене є набір безперервних функцій (від 0 до 1) та набір категоричних ознак, які я перетворив на фіктивні змінні. У цьому конкретному випадку я кодую дату вимірювання у фіктивній змінній: У мене є три періоди, з яких …

15 categorical-data svm feature-selection linear-model feature-construction

2

Як зробити регресію з ефектом кодування замість фіктивного кодування в R?

Зараз я працюю над регресійною моделлю, де я маю лише категоричні / факторні змінні як незалежні змінні. Моя залежна змінна - коефіцієнт перетвореного logit. Досить просто просто запустити нормальну регресію в R, оскільки R автоматично знає, як кодувати манекени, як тільки вони стають типу "фактор". Однак цей тип кодування також …

15 r regression categorical-data categorical-encoding

1

Чи може логістична регресія glmnet безпосередньо обробляти факторні (категоричні) змінні, не потребуючи фіктивних змінних? [зачинено]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 3 роки тому . Я будую логістичну регресію в R за допомогою методу LASSO з функціями cv.glmnetвибору lambdaі glmnetдля кінцевої моделі. Я вже знаю всі недоліки …

15 r logistic categorical-data lasso glmnet

2

Чи можемо ми використовувати категоричну незалежну змінну в дискримінантному аналізі?

У дискримінантному аналізі залежна змінна є категоричною, але чи можу я використовувати категоричну змінну (наприклад, житловий стан: сільський, міський) разом з якоюсь іншою суцільною змінною як незалежну змінну в лінійному дискримінантному аналізі?

15 logistic categorical-data discriminant-analysis regression-strategies

2

Чи завжди перехід від безперервних даних до категоричних завжди помиляється?

Коли я читаю про те, як налаштувати ваші дані, одне, що мені часто траплялося, - це те, що перетворення деяких безперервних даних у категоричні дані не є хорошою ідеєю, оскільки ви дуже добре можете зробити неправильний висновок, якщо пороги погано визначені. Однак на даний момент у мене є деякі дані …

14 categorical-data continuous-data

3

Чому кореляція не дуже корисна, коли одна зі змінних є категоричною?

Це трохи перевірка кишок, будь ласка, допоможіть мені зрозуміти, чи я нерозумію цю концепцію, і яким чином. У мене є функціональне розуміння кореляції, але я відчуваю трохи розуміння, щоб справді впевнено пояснити принципи цього функціонального розуміння. Як я розумію, статистична кореляція (на відміну від більш загального використання терміна) - це …

14 correlation categorical-data covariance

1

Чи правильно поєднувати категоричні та безперервні дані для SVM (Support Vector Machines)?

У мене схожий набір даних +--------+------+-------------------+ | income | year | use | +--------+------+-------------------+ | 46328 | 1989 | COMMERCIAL EXEMPT | | 75469 | 1998 | CONDOMINIUM | | 49250 | 1950 | SINGLE FAMILY | | 82354 | 2001 | SINGLE FAMILY | | 88281 | 1985 | …

14 categorical-data svm mixed-type-data

1

Які існують різні типи кодування для категоричних змінних (в R) і коли ви їх використовуєте?

Якщо вам підходить лінійна модель або змішана модель, існують різні типи кодувань, які дозволяють перетворити категоричну або номінальну змінну в ряд змінних, для яких оцінюються параметри, такі як манекенне умовлення (за замовчуванням R) та кодування ефектів. Я чув, що кодування ефектів (іноді їх називають відхиленням або контрастним кодуванням) є кращим, …

14 regression mixed-model categorical-data contrasts categorical-encoding

2

Методи злиття / зменшення категорій у порядкових або номінальних даних?

Я намагаюся знайти спосіб зменшення кількості категорій у номінальних чи порядкових даних. Наприклад, скажімо, що я хочу побудувати регресійну модель на наборі даних, яка має ряд номінальних та порядкових факторів. Хоча у мене немає проблем з цим кроком, я часто стикаюся з ситуаціями, коли номінальна функція не має спостережень у …

14 r categorical-data dimensionality-reduction many-categories

8

Тренуйте нейронну мережу, щоб розрізняти парні та непарні числа

Питання: чи можна навчити NN розрізняти непарні і парні числа, використовуючи лише як введення самих числа? У мене є такий набір даних: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 Я тренував NN з двома вхідними нейронами (один …

14 machine-learning classification categorical-data neural-networks genetic-algorithms

3

Заміна змінних на WoE (Вага доказів) в логістичній регресії

Це питання стосовно практики чи методу, за яким дотримуються деякі мої колеги. Створюючи логістичну регресійну модель, я бачив, як люди замінюють категоричні змінні (або суцільні змінні, котрі поширюються) на відповідну Вагу доказів (WoE). Це нібито робиться для встановлення монотонного зв'язку між регресором та залежною змінною. Наскільки я розумію, щойно модель …

14 regression logistic categorical-data modeling

Запитання з тегом «categorical-data»