Статистика та великі дані modeling

1

Шляхи коефіцієнтів - порівняння регресії хребта, ласо та пружної сітки

Мені хотілося б порівняти вибрані моделі з хребтом, ласо і еластичною сіткою. На рис. Нижче показані коефіцієнти шляхів з використанням усіх 3-х методів: конь (рис. А, альфа = 0), ласо (фіг. В; альфа = 1) і еластична сітка (фіг С; альфа = 0,5). Оптимальне рішення залежить від обраного значення лямбда, …

13 r multiple-regression modeling regularization

1

Узагальнені моделі добавок (GAM), взаємодії та коваріати

Я досліджував цілий ряд інструментів для прогнозування і виявив, що узагальнені моделі добавок (GAM) мають найбільший потенціал для цієї мети. Ігри чудові! Вони дозволяють задавати складні моделі дуже стисло. Однак ця сама лаконічність викликає у мене певну плутанину, зокрема, стосовно того, як GAM сприймають терміни взаємодії та коваріати. Розглянемо приклад …

12 r modeling gam mgcv

5

Як виконати імпутацію значень у дуже великій кількості точок даних?

У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Моделювання, коли залежна змінна має "межування"

Вибачте заздалегідь, якщо будь-яка термінологія, яку я використовую, є невірною. Я вітаю будь-які виправлення. Якщо те, що я характеризую як "відсікання", має інше ім'я, дайте мені знати, і я можу оновити питання. Мене цікавить ситуація така: у вас є незалежні змінні і одна залежна змінна . Я залишу це розпливчастим, …

12 regression modeling survival censoring

1

Критерії вибору "найкращої" моделі в моделі прихованої Маркова

У мене є набір даних часових рядів, до яких я намагаюся встановити модель прихованої Маркова (HMM), щоб оцінити кількість прихованих станів у даних. Мій псевдо-код для цього: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } Тепер, …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

1

Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи

Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Параметричне моделювання дисперсії даних лічильників

Я шукаю, щоб моделювати деякі дані, але я не впевнений, який тип моделі я можу використовувати. У мене є дані про підрахунок, і я хочу, щоб модель дала параметричні оцінки як середнього, так і дисперсійного даних. Тобто, у мене є різні прогнозні чинники, і я хочу визначити, чи впливає який-небудь …

12 variance modeling count-data overdispersion gamlss

1

Точний тест Фішера та гіпергеометричне поширення

Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це: > soda_gender f m n 0 5 y 5 0 Очевидно, це різке спрощення, але я не хотів, щоб …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

встановлення експоненціальної функції з використанням найменших квадратів проти узагальненої лінійної моделі проти нелінійних найменших квадратів

У мене є набір даних, який представляє експоненціальний розпад. Я хотів би помістити в ці дані експоненціальну функцію . Я спробував журнал перетворити змінну відповіді, а потім використовувати найменші квадрати, щоб підходити до рядка; використання узагальненої лінійної моделі з функцією зв’язку журналу та розподілом гами навколо змінної відповіді; і використовуючи …

12 modeling generalized-linear-model least-squares nonlinear-regression curve-fitting

4

Лінійні моделі журналу

Чи може хто-небудь пояснити, чому ми використовуємо лінійні моделі журналу дуже просто? Я родом з інженерного походження, і це справді виявляється для мене важким предметом, тобто статистикою. Буду вдячний за відповідь.

12 modeling log-linear

1

Коли я повинен перестати шукати модель?

Я шукаю модель між запасами енергії та погодою. У мене є ціна MWatt, куплена між країнами Європи, і багато цінності погоди (файли Grib). Кожні години протягом 5 років (2011-2015). Ціна / добу Це на день протягом одного року. Я маю це за годину протягом 5 років. Приклад погоди 3Dscatterplot, у …

11 time-series forecasting predictive-models modeling large-data

5

Вимірювання регресії до середнього в попаданні додому

Кожен, хто слідкує за бейсболом, ймовірно, чув про нестандартне виконання MVP типу Жозе Баутіста в Торонто. За чотири роки тому він забивав приблизно 15 домашніх пробіжок за сезон. Минулого року він потрапив до 54, кількість перевершила лише 12 гравців в історії бейсболу. У 2010 році йому виплатили 2,4 мільйона, і …

11 r regression modeling

10

Причини, крім прогнозування побудови моделей?

Джошуа Епштейн написав документ під назвою "Чому модель?" доступний на веб- сайті http://www.santafe.edu/media/workingpapers/08-09-040.pdf, в якому наведено 16 причин: Поясніть (дуже відрізняється від передбачення) Збір даних керівництва Світлова динаміка основи Запропонуйте динамічні аналогії Відкрийте для себе нові запитання Пропагуйте наукову звичку розуму Зв'язані (дужки) результати до правдоподібних діапазонів Освітлити основні невизначеності. …

11 modeling

1

R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?

У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

7

Уникнення соціальної дискримінації в побудові моделей

У мене є запитання, натхнені нещодавним скандалом з призовом на роботу в Амазонії, де їх звинувачували в дискримінації жінок у процесі прийняття на роботу. Більше інформації тут : Фахівці з машинного навчання Amazon.com Inc виявили велику проблему: їх новий рекрутинг не сподобався жінкам. Команда будувала комп’ютерні програми з 2014 року …

10 predictive-models modeling model

Запитання з тегом «modeling»