Статистика та великі дані survey

3

Приклад: регресія LASSO з використанням glmnet для двійкового результату

Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

Як боротися з ієрархічними / вкладеними даними в машинному навчанні

Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Обчислювальна повторюваність ефектів від lmer-моделі

Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

Як спроектувати новий вектор на простір PCA?

Після проведення аналізу основних компонентів (PCA) я хочу спроектувати новий вектор на простір PCA (тобто знайти його координати в системі координат PCA). Я розрахував PCA мовою R за допомогою prcomp. Тепер я повинен мати можливість помножити свій вектор на матрицю обертання PCA. Чи повинні головні компоненти в цій матриці розташовуватися …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

використання ваг у svyglm vs glm

Мені хотілося б знати, чим відрізняється обробка ваг між svyglmіglm Я використовую twangпакет в R, щоб створити показники схильності, які потім використовуються як ваги, наступним чином (цей код походить з twangдокументації): library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married …

18 r survey

2

Як обчислити середню тривалість прихильності вегетаріанства, коли ми маємо лише дані опитування про поточних вегетаріанців?

Було обстежено випадкову вибірку популяції. Їх запитали, чи їдять вони вегетаріанську дієту. Якщо вони відповіли "так", їх також попросили вказати, як довго вони їдять вегетаріанську дієту без перешкод. Я хочу використовувати ці дані для обчислення середньої тривалості прихильності до вегетаріанства. Іншими словами, коли хтось стає вегетаріанцем, я хочу знати, що …

16 survival mean missing-data survey weighted-mean

8

Як ставитися до нелогічних відповідей опитування

Я подав опитування на зразок художників. Одним із запитань було вказати відсоток доходу, отриманий завдяки: мистецькій діяльності, державній підтримці, приватній пенсії, діяльності, не пов'язаній із мистецтвом. Близько 65% людей відповіли таким чином, що сума відсотка становить 100. Інші не відповідають: наприклад, є такі, хто відповідає, що 70% доходу, отриманого його …

13 survey bias

8

Опитування: чи є 25% великого представника бази користувачів?

В даний час мій роботодавець проводить опитування компанії про ставлення до офісу, тобто про почуття. У минулому вони відкрили опитування для всіх напрямків бізнесу (припустимо, 10 дуже різних відділів) та всіх працівників у них (Припустимо, загалом 1000 працівників у всій компанії) Кількість працівників у кожному відділі не однакова і одна …

13 survey survey-sampling

5

Чому стверджується, що вибірка часто точніша за перепис?

При вивченні курсу вибірки я зустрічаю наступні два твердження: 1) Помилка вибірки призводить до більшої мінливості, помилки без вибірки призводять до зміщення. 2) Через помилку без вибірки зразок часто є більш точним, ніж ЦЕНЗАЛ. Я не знаю, як зрозуміти ці два твердження. Яка основна логіка отримання цих двох тверджень?

13 estimation sampling survey bias

2

Ідентифікація марних питань із анкети

Я розробляю анкету. Для підвищення його надійності та обґрунтованості я хочу використовувати статистичні методи. Я хочу усунути питання, відповіді яких завжди однакові. Це означає, що майже всі учасники дали однакові відповіді на ці питання. Тепер мої запитання: Який технічний термін для таких марних питань, відповіді яких завжди однакові, незалежно від …

12 survey reliability psychometrics validity

3

Перевірка анкет

Я розробляю анкету для моєї дисертації. Я в процесі перевірки анкети я застосував альфа-тест Кронбаха до початкової групи вибірки. Відповіді на анкету - за шкалою Лікерта; чи може хтось запропонувати будь-які подальші тести, які допоможуть перевірити його достовірність. Я не є експертом зі статистики, тому будь-яка допомога буде вдячна. Я …

12 survey scales psychometrics scale-construction

2

Перехресне підтвердження після LASSO у складних даних опитування

Я намагаюся зробити вибір моделей на деяких прогнозованих кандидатах, використовуючи LASSO з постійним результатом. Мета полягає у виборі оптимальної моделі з найкращою продуктивністю прогнозування, що зазвичай може бути виконано перехресним перевіркою K-кратного результату після отримання шляху рішення параметрів настройки від LASSO. Проблема тут полягає в тому, що дані походять із …

11 cross-validation survey lasso glmnet

2

Який найкращий спосіб візуалізувати ефекти категорій та їх поширеність у логістичній регресії?

Мені потрібно представити інформацію про основні прогнози голосів кандидата, використовуючи дані опитування громадської думки. Я здійснив логістичну регресію, використовуючи всі змінні, які мене цікавлять, але я не можу знайти хороший спосіб представити цю інформацію. Мій клієнт дбає не лише про розмір ефекту, а про взаємодію між величиною ефекту та чисельністю …

11 logistic data-visualization survey

2

Як похибки пов'язані з довірчими інтервалами?

Може хтось скаже мені різницю між похибками та довірчими інтервалами? В Інтернеті я бачу, як ці два значення вживаються взаємозамінно. Чи правильно сказати: "Інтервали довіри відображаються у формі 1,96 і відображаються на графіках у вигляді меж помилок"?

11 confidence-interval survey polling

6

Чи є сайт, на який можна розмістити опитування, щоб я міг отримати вибірковий представник населення?

Це лише для мого старшого шкільного проекту, тому він не повинен бути ідеальним. Я роблю проект із глобального потепління, і хочу оглянути людей на їх думку. Я знаю, що якщо я буду використовувати зразок зручності своїх однокласників, у мене буде багато упереджень. Мені було цікаво, чи є в Інтернеті сайт, …

11 survey internet

Запитання з тегом «survey»