Статистика та великі дані r

1

Як можна оптимізувати обчислювальну ефективність при підгонці складної моделі до великого набору даних неодноразово?

У мене виникають проблеми з ефективністю використання MCMCglmmпакету в R для запуску моделі зі змішаними ефектами. Код виглядає так: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) За даними є близько 20 000 спостережень, вони об'єднані приблизно в 200 шкіл. Перед запуском я видалив усі невикористані змінні з …

12 r mixed-model mcmc computational-statistics

2

Як моделювати функціональні дані?

Я намагаюся перевірити різні функціональні підходи до аналізу даних. В ідеалі я хотів би перевірити панель підходів, які я маю на моделюваних функціональних даних. Я намагався генерувати модельований FD, використовуючи підхід, заснований на підсумовуванні гауссових шумів (код нижче), але отримані криві виглядають набагато надто міцними порівняно з реальними . Мені …

12 r simulation functional-data-analysis

1

Як генерувати прогнози за допомогою rjags?

Я використовував rjags для запуску MCMC на моделі, визначеній мовою JAGS. Чи є хороший спосіб витягти цю модель і виконати прогнози з нею (використовуючи задній розподіл моїх параметрів)? Я можу повторно вказати модель в R та підключити режими моїх плакатів параметрів; Мені просто цікаво, чи існує менш зайвий спосіб цього …

12 r jags

2

Автоматично визначати розподіл ймовірностей за даним набором даних

Даний набір даних: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) .. Я б хотів визначити найбільш підходящий розподіл ймовірностей (гамма, бета, нормальний, експоненційний, пуассон, чі-квадрат тощо) з оцінкою параметрів. Мені вже відомо питання на наступному посиланні, де надається рішення за допомогою R: /programming/2661402/given-a-set-of-random-numbers-drawn-from-a- безперервно-одновимірний розподіл-f найкращим запропонованим рішенням є наступне: > library(MASS) > fitdistr(x, …

12 r matlab distributions

1

Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи

Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

Логістична квантильна регресія - як найкраще передати результати

У попередньому дописі я замислювався, як боротися з оцінками EQ-5D . Нещодавно я натрапив на логістичну квантильну регресію, запропоновану Боттаєм та МакКаун, яка запроваджує елегантний спосіб вирішення обмежених результатів. Формула проста: logit(y)=log(y−yminymax−y)logit(y)=log(y−yminymax−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) Щоб уникнути журналу (0) та ділення на 0, ви розширите діапазон на невелике значення, . Це дає середовище, …

12 r logistic data-visualization logit quantile-regression

1

Оцінка розподілу за даними

У мене є зразок даних , отриманих в Rшляху rnorm(50,0,1), тому дані , очевидно , бере на себе нормальне розподіл. Однак Rне "знає" цю розповсюджувальну інформацію про дані. Чи існує метод, Rякий дозволяє оцінити, від якого типу розподілу походить мій зразок? Якщо ні, я скористаюсь shapiro.testфункцією та продовжую так.

12 r distributions

1

Часткова найменша регресія квадратів у R: чому ПЛС на стандартизованих даних не еквівалентна максимальній кореляції?

Я дуже новий в часткових найменших квадратиках (PLS) і намагаюся зрозуміти вихід R функції plsr()в plsпакеті. Давайте змоделюємо дані та запустимо PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- …

12 r regression partial-least-squares

2

Моделювання вартості життя RFM та клієнта в R

Хто-небудь може сказати мені, як робити моделювання залишків, частоти та грошової вартості (RFM) та моделювання вартості клієнта в R? Також, може хтось посилає мені якусь літературу про це?

12 r references marketing

3

Ілюстративні набори даних та аналіз для багаторівневого моделювання

Нещодавно я пройшов вступний курс з багаторівневого моделювання. Більшість використовуваних нами наборів даних та прикладів були з соціальних наук. Щойно я пройшов 2-тижневе стажування у відділі біостатики, де вони хочуть, щоб я розпочав проект щодо зміни на стаціонарі рівня пацієнтів на екстрений стан, який має високий рівень смертності, як між …

12 r stata multilevel-analysis epidemiology

2

SVM з неоднаковими розмірами груп у навчальних даних

Я намагаюся створити SVM з навчальних даних, де одна група представлена більше, ніж інша. Однак групи будуть однаково представлені у кінцевих даних тесту. Тому я хотів би використовувати class.weightsпараметр e1071інтерфейсу пакету R, libsvmщоб збалансувати вплив двох груп на навчальні дані. Оскільки я не знав, як саме слід вказати ці ваги, …

12 r machine-learning svm

2

Наближення інтегралів з використанням моделювання Монте-Карло в R

Як я можу наблизити наступний інтеграл за допомогою моделювання MC? ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y Дякую! Правка (деякий контекст): Я намагаюся навчитися використовувати моделювання для наближення інтегралів, і я отримую певну практику, коли зіткнувся з деякими труднощами. Редагувати 2 + 3 : Якось заплутався і подумав, що потрібно розділити …

12 r self-study monte-carlo

3

Читання лише двох з трьох стовпців з read.csv

Заблокований . Це запитання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. У мене є набір даних ascii, який складається з трьох стовпців, але лише два останні є фактичними даними. Тепер я хочу створити точку діаграм даних за …

12 r

4

Прогнозування двійкових часових рядів

У мене є двійковий часовий ряд з 1, коли машина не рухається, і 0, коли машина рухається. Я хочу зробити прогноз на часовий горизонт до 36 годин вперед і на кожну годину. Першим моїм підходом було використання Naive Bayes, використовуючи такі входи: t-24 (щоденний сезон), t-48 (сезонний тиждень), година дня. …

12 r time-series forecasting binary-data

2

Як вказати конкретні контрасти для повторних заходів ANOVA за допомогою автомобіля?

Я намагаюся виконати повторні заходи Anova in R з деякими специфічними контрастами на цьому наборі даних. Я думаю, що правильним підходом було б використання Anova()з автомобільного пакета. Проілюструємо моє запитання на прикладі, взятому із ?Anovaвикористання OBrienKaiserданих (Примітка. Я припустив гендерний фактор із прикладу): У нас є дизайн з одним фактором …

12 r anova repeated-measures contrasts sums-of-squares

Запитання з тегом «r»