Статистика та великі дані association-measure

3

Приклад: регресія LASSO з використанням glmnet для двійкового результату

Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

Як перевірити нелінійну асоціацію?

Для сюжету 1 я можу перевірити асоціацію між x та y, зробивши просту кореляцію. Для сюжету 2, де зв'язок нелінійний, але чітке співвідношення між x та y є, як я можу перевірити асоціацію та позначити її природу?

37 nonlinear-regression non-independent association-measure

1

Як візуалізувати величезну таблицю з надзвичайними ситуаціями?

У мене є дві змінні: назва наркотиків (DN) та відповідні побічні явища (AE), які стоять у співвідношенні «багато до багатьох». Зафіксовано 33 556 найменувань препаратів та 9 556 побічних подій. Розмір вибірки становить близько 5,8 мільйона спостережень. Я хочу вивчити та зрозуміти зв'язок / зв’язок між DN та AE. Я …

24 r categorical-data data-visualization large-data association-measure

2

Коефіцієнти подібності двійкових даних: Чому вибирають Жакарда над Расселом та Рао?

З Енциклопедії статистичних наук я розумію, що за даними дихотомічних (бінарних: 1 = присутній; 0 = відсутніх) атрибутів (змінних) ми можемо сформувати таблицю непередбачених ситуацій для будь-яких двох об'єктів i та j вибірки:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d …

20 binary-data similarities association-measure

5

Як я вивчаю "кореляцію" між неперервною змінною та категоріальною змінною?

Який змістовний "кореляційний" захід для вивчення співвідношення між цими двома типами змінних? В R, як це зробити?

19 r correlation categorical-data association-measure

1

Який належний показник асоціації змінної з компонентом PCA (на графіці біплоту / завантаження)?

Я використовую, FactoMineRщоб зменшити набір даних вимірювань до прихованих змінних. Карта змінна вище ясно для мене , щоб інтерпретувати, але я збентежений , коли мова йде про зв'язки між змінними і компонента 1. Подивившись на змінної карті, ddpі covдуже близько до компоненту в карті, і ddpAbsтрохи далі геть. Але це …

17 correlation pca factor-analysis association-measure biplot

2

Застосовуваність тесту чи-квадрата, якщо багато комірок мають частоти менше 5

Щоб знайти зв'язок між підтримкою однолітків (незалежна змінна) та задоволеність роботою (залежна змінна), я хочу застосувати тест-квадрат. Підтримка однолітків - це категорії в чотирьох групах відповідно до ступеня підтримки: 1 = дуже менший ступінь, 2 = певною мірою, 3 = значною мірою і 4 = дуже великий ступінь. Задоволеність роботою …

14 chi-squared nonparametric contingency-tables association-measure

2

Непараметрична міра сили зв’язку між порядковою і безперервною випадковою змінною

Я кидаю тут проблему, як я її отримав. У мене є дві випадкові величини. Один з яких є безперервним (Y), а інший - дискретним і буде наближатися до порядкового (X). Я поставив нижче сюжет, який я отримав разом із запитом. Людина, яка надсилає мені дані, хоче виміряти силу зв’язку між …

12 correlation nonparametric ordinal-data association-measure

1

Яка оптимальна функція відстані для індивідів, коли атрибути номінальні?

Я не знаю, яку функцію відстані між особами використовувати у випадку номінальних (не упорядкованих категоричних) атрибутів. Я читав підручник, і вони пропонують функцію простого узгодження, але деякі книги пропонують мені змінити номінальний на двійкові атрибути і використовувати коефіцієнт Жаккарда . Однак що робити, якщо значення номінального атрибута не дорівнюють 2? …

12 distance-functions distance similarities association-measure categorical-data

3

Які статистичні методи я можу використовувати, щоб знайти популярні чи поширені комбінації категоричних змінних?

Я роблю дослідження щодо використання багатолікарських препаратів. У мене є набір даних про 400 наркоманів, які кожен заявляв про наркотики, які вони зловживають. Існує більше 10 препаратів, а значить, можливі великі комбінації. Я переписав більшість наркотиків, які вони вживають у бінарні змінні (тобто героїн - 1, якщо наркоман зловживав героїном …

10 hypothesis-testing clustering combinatorics association-measure association-rules

2

Кореляція між дихотомічною та безперервною змінною

Я намагаюся знайти співвідношення між дихотомічною та суцільною змінною. З моєї основної роботи з цього питання я виявив, що я повинен використовувати незалежний t-тест, і передумовою цього є те, що розподіл змінної має бути нормальним. Я провів тест Колмогорова-Смірнова для перевірки нормальності і виявив, що суцільна змінна є ненормальною і …

10 normal-distribution categorical-data continuous-data kolmogorov-smirnov association-measure

13

Якщо "B більше шансів надати A", то "A швидше дається B"

Я намагаюся отримати більш чітку інтуїцію позаду: "Якщо робить більш імовірним, тоді робить більш імовірним", тобтоAAABBBBBBAAA Нехай позначає розмір простору , в якому і є, тоn(S)n(S)n(S)AAABBB Претензія: такP(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) томуn(AB)/n(B)>n(A)/n(S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) що єP(A|B)>P( А )P(A|B)>P(A)P(A|B)>P(A) Я розумію математику, але чому це має інтуїтивний сенс?

9 probability inference conditional-probability intuition association-measure

3

Обчислення коефіцієнта Жакарда або іншого асоціації для двійкових даних за допомогою множення матриць

Я хочу знати, чи є можливий спосіб обчислити коефіцієнт Жакарда за допомогою матричного множення. Я використав цей код jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] …

9 r matrix binary-data association-measure similarities

2

Параметричне, напівпараметричне та непараметричне завантаження для змішаних моделей

Наступні трансплантати взяті з цієї статті . Я новачок у завантажувальній програмі та намагаюся реалізувати параметричне, напівпараметричне та непараметричне завантажувальне завантаження для лінійної змішаної моделі з R bootпакетом. R код Ось мій Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

Запитання з тегом «association-measure»