Статистика та великі дані r

2

Чи можете ви обчислити потужність тесту Колмогорова-Смірнова в R?

Чи можливо зробити аналіз потужності для двостороннього тесту Колмогорова Смірнова в R? Я перевіряю, чи відрізняються два емпіричні розподіли за допомогою ks.test (), і хочу додати аналіз потужності. Я не зміг знайти вбудований аналіз потужності для тестів на KS в Р. Будь-які пропозиції? Редагувати : це випадкові згенеровані розподіли, які …

10 r power-analysis kolmogorov-smirnov

1

Формула для байєсівського тестування A / B не має сенсу

Я використовую формулу баєсівського тестування ab для того, щоб обчислити результати тесту АВ за методологією Байєса. Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA)Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA) \Pr(p_B > p_A) = \sum^{\alpha_B-1}_{i=0} \frac{B(\alpha_A+i,\beta_B+\beta_A)}{(\beta_B+i)B(1+i,\beta_B)B(\alpha_A, \beta_A)} де αAαA\alpha_A в одному плюс кількість успіхів для A βAβA\beta_A в один плюс кількість відмов для A αBαB\alpha_B в один плюс кількість успіхів для B βBβB\beta_B …

10 r bayesian ab-test

2

P значення для терміну взаємодії в моделях зі змішаними ефектами з використанням lme4

Я аналізую деякі поведінкові дані, використовуючи, lme4в Rосновному дотримуючись чудових навчальних посібників Bodo Winter , але я не розумію, чи правильно обробляю взаємодію. Гірше, що ніхто більше не бере участь у цьому дослідженні, не використовує змішаних моделей, тому я трохи похитнувся, коли потрібно переконатися, що все правильно. Замість того, щоб …

10 r mixed-model p-value lme4-nlme

3

Що краще, stl або розкласти?

Я роблю аналіз часових рядів за допомогою Р. Я повинен розкласти свої дані на тренд, сезонну та випадкову складові. У мене є дані за тиждень протягом 3 років. Я знайшов дві функції в R - stl()і decompose(). Я читав, що stl()не годиться для мультиплікативного розкладання. Хтось може мені сказати, в …

10 r time-series

3

Як отримати p-значення коефіцієнтів від регресії завантажувальної програми?

З Quick-R Роберта Кабакоффа у мене є # Bootstrap 95% CI for regression coefficients library(boot) # function to obtain regression weights bs <- function(formula, data, indices) { d <- data[indices,] # allows boot to select sample fit <- lm(formula, data=d) return(coef(fit)) } # bootstrapping with 1000 replications results <- boot(data=mtcars, …

10 r regression p-value bootstrap

1

Двопробне порівняння пропорцій, оцінка розміру вибірки: R проти Stata

Двопробне порівняння пропорцій, оцінка розміру вибірки: R проти Stata Я отримав різні результати щодо розмірів вибірки: В Р power.prop.test(p1 = 0.70, p2 = 0.85, power = 0.90, sig.level = 0.05) Результат: н = 160,7777н=160.7777n = 160.7777 (так 161) для кожної групи. У штаті sampsi 0.70 0.85, power(0.90) alpha(0.05) Результат: для …

10 r stata sample-size power-analysis jmp

1

Чи можуть випадкові ліси зробити набагато краще, ніж 2,8% помилки тесту на MNIST?

Я не знайшов жодної літератури щодо застосування випадкових лісів до MNIST, CIFAR, STL-10 тощо. Тому я подумав, що спробував би їх з інваріантним перестановкою MNIST. У R я спробував: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Це тривало протягом 2 годин і отримало 2,8% тестової помилки. Я також спробував scikit-learn , с …

10 r machine-learning classification random-forest scikit-learn

1

Вірогідність журналу для GLM

У наступному коді я здійснюю логістичну регресію на згрупованих даних за допомогою glm та "від руки" за допомогою mle2. Чому функція logLik в R дає мені ймовірність журналу logLik (fit.glm) = - 2.336, що відрізняється від одного logLik (fit.ml) = - 5.514, який я отримую вручну? library(bbmle) #successes in first …

10 r self-study generalized-linear-model

1

SMOTE викидає помилку для багатокласової проблеми дисбалансу

Я намагаюся використовувати SMOTE для виправлення дисбалансу в моїй проблемі класифікації класів. Хоча SMOTE чудово працює на наборі даних райдужної оболонки відповідно до довідкового документа SMOTE, він не працює на подібному наборі даних. Ось як виглядають мої дані Зауважте, у ньому є три класи зі значеннями 1, 2, 3. > …

10 r classification unbalanced-classes oversampling

2

AIC, anova error: Моделі не всі підходили до однакової кількості спостережень, моделі не всі були встановлені на однаковий розмір набору даних

У мене є такі моделі: require(nlme) set.seed(123) n <- 100 k <- 5 cat <- as.factor(rep(1:k, n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, each = k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) m1 …

10 r mixed-model aic

4

Модель історії дискретних подій дискретного часу (виживання) в R

Я намагаюся вписати в R дискретний час модель, але не знаю, як це зробити. Я читав, що ви можете організувати залежну змінну в різні рядки, по одній для кожного часу спостереження, і використовувати glmфункцію за допомогою посилання logit або cloglog. У цьому сенсі, у мене є три колонки: ID, Event(1 …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

1

Зазначення терміну Error () у повторних заходах ANOVA в R

У мене виникають проблеми з визначенням помилок для двосторонніх повторних заходів ANOVA в Р. Мої дані складаються з оцінок щільності деревини для трьох радіальних положень (внутрішнього, середнього та зовнішнього) уздовж ядра, витягнутого з дерева. Всього існує 20 видів дерев, 6 особин кожного виду та по два ядра з кожного дерева. …

10 r anova repeated-measures

2

REML проти ML stepAIC

Я відчуваю себе переповненим після спроби зануритися в літературу про те, як запустити мішаний аналіз моделі після його використання з використанням AIC для вибору найкращої моделі чи моделі. Я не думаю, що мої дані є настільки складними, але я шукаю підтвердження того, що те, що я зробив, є правильним, а …

10 r lme4-nlme random-effects-model aic

3

Winbugs та інші MCMC без інформації для попереднього розповсюдження

Що відбувається, коли ви не маєте уявлення про розподіл параметрів? Який підхід ми повинні використовувати? Більшу частину часу ми прагнемо підкреслити, якщо певна змінна має який-небудь вплив на наявність / відсутність певного виду, і змінна приймається чи ні відповідно до значення змінної. Це означає, що більшість випадків ми не замислюємось …

10 r bayesian mcmc bugs winbugs

2

Перехресна перевірка GAM для перевірки помилки прогнозування

Мої запитання стосуються GAM в пакеті mgcv R. Через невеликий розмір вибірки я хочу визначити помилку передбачення за допомогою перехресної валідації "вихід-один-вихід". Це розумно? Чи є пакет або код, як я можу це зробити? errorest()Функція в ipred пакеті не працює. Простий набір тестів: library(mgcv) set.seed(0) dat <- gamSim(1,n=400,dist="normal",scale=2) b<-gam(y~s(x0)+s(x1)+s(x2)+s(x3),data=dat) summary(b) …

10 r cross-validation gam mgcv

Запитання з тегом «r»