Статистика та великі дані stata

25

Багато людей використовують для своїх статистичних даних основний інструмент, наприклад, Excel або іншу електронну таблицю, SPSS, Stata або R. Вони можуть звернутися до певного пакету для дуже особливих потреб, але багато чого можна зробити за допомогою простої таблиці або загального пакета статистики або середовища програмування статистики. Мені завжди подобався Python …

355 r spss stata python

3

Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом

Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

4

Повторний "надійний" варіант Stata в R

Я намагався повторити результати параметра Stata robustв Р. Я використав rlmкоманду з пакету MASS, а також команду lmrobз пакету "robustbase". В обох випадках результати сильно відрізняються від "надійного" варіанту в Stata. Чи може хтось запропонувати щось у цьому контексті? Ось результати, які я отримав, коли запустив надійний варіант у Stata: …

39 r stata robust robust-standard-error

4

Точний тест Фішера в таблицях на випадок, більший за 2х2

Мене вчили застосовувати точний тест Фішера лише у таблицях на випадок надзвичайних ситуацій, які були 2х2. Запитання: Чи вважав сам Фішер коли-небудь цей тест використовувати в таблицях розміром більше 2х2 (мені відомо, що казка про нього розробляє тест, намагаючись вгадати, чи могла бабуся сказати, чи в чай додають молоко чи …

29 spss stata contingency-tables fishers-exact

1

Чи може ступінь свободи бути цілим числом?

Коли я використовую GAM, це дає мені залишковий коефіцієнт DF (останній рядок у коді). Що це означає? Виходячи за приклад GAM, загалом, чи може число ступенів свободи бути нецілим числом?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Чому я отримую нульову дисперсію випадкового ефекту в моїй змішаній моделі, незважаючи на певні зміни в даних?

Ми виконали логістичну регресію зі змішаними ефектами, використовуючи наступний синтаксис; # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) Тема та предмет - випадкові ефекти. Ми отримуємо непарний результат, який є коефіцієнтом і стандартним відхиленням для предмета, …

22 r mixed-model stata glmm lme4-nlme

1

Який непараметричний еквівалент двосторонньої ANOVA, який може включати взаємодії?

Привіт, я намагаюся знайти непараметричний еквівалент двосторонньої ANOVA (3x4 конструкції), яка здатна включати взаємодії. З мого читання в Зарі 1984 р. "Біостатистичного аналізу" це можливо за допомогою методу, викладеного в Шірера, Рея і Зайця (1976), однак, згідно з іншими публікаціями в Інтернеті, було зроблено висновок, що цей метод більше не …

20 r anova nonparametric stata interaction

4

Які правильні значення для точності та відкликання у кращих випадках?

Точність визначається як: p = true positives / (true positives + false positives) Чи правильно, що як true positivesі false positivesпідхід 0, точність наближається до 1? Те саме запитання для відкликання: r = true positives / (true positives + false negatives) Зараз я впроваджую статистичний тест, де мені потрібно обчислити …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Яка діагностика може підтвердити використання конкретного сімейства GLM?

Це здається таким елементарним, але я завжди зациклююся на цьому ... Більшість даних, з якими я маю справу, не є нормальними, а більшість аналізів базується на структурі GLM. Для мого поточного аналізу у мене є змінна відповідь, яка "швидкість ходьби" (метри / хвилина). Мені легко визначити, що я не можу …

19 generalized-linear-model stata gamma-distribution

1

Стандартна помилка випадкових ефектів в R (lme4) проти Stata (xtmixed)

Будь ласка, врахуйте ці дані: dt.m <- structure(list(id = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), occasion = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, …

19 r mixed-model stata lme4-nlme

4

Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій

Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

2SLS, але пробіт другої стадії

Я намагаюся використовувати інструментальний аналіз змінних, щоб визначити причинність із спостережуваними даними. Я зіткнувся з двоступеневою регресією найменших квадратів (2SLS), яка, ймовірно, вирішить питання ендогенності в моєму дослідженні. Однак я хотів би, щоб перший етап був OLS, а другий етап був пробітом у межах 2SLS. На основі свого читання та …

15 stata probit instrumental-variables 2sls

5

Як визначити часовий ряд?

Як визначити часовий ряд? Чи гаразд просто взяти першу різницю та запустити тест Діккі Фуллера, і якщо він нерухомий, ми хороші? Також я виявив в Інтернеті, що можу зірвати часовий ряд, зробивши це в Stata: reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) …

14 regression time-series stata stationarity

4

Відповідність показника схильності до даних панелі

У мене є набір поздовжніх даних про осіб, деякі з них піддавалися лікуванню, а інші - не. Усі особи є у вибірці від народження до 18 років, і лікування відбувається в деякому віці між цим діапазоном. Вік лікування може відрізнятися в різних випадках. Використовуючи відповідність показників схильності, я хотів би …

13 stata panel-data propensity-scores

2

Як інтерпретувати пробіт-модель у Stata?

Я не впевнений, як інтерпретувати цю прогресивну регресію, яку я натрапив на "Stata". Дані наводяться на затвердження позики, а білий - фіктивна змінна величина, яка = 1, якщо людина біла, і = 0, якщо людина не була. Будь-яка допомога щодо того, як це прочитати, буде дуже вдячна. Я найбільше шукаю, …

13 regression multiple-regression stata

Запитання з тегом «stata»