Статистика та великі дані r

1

R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?

У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Як імітувати цензуровані дані

Мені цікаво, як я можу імітувати зразок n часу життя дистрибуції Вейбулла, що включає спостереження правого цензури типу I. Наприклад, давайте n = 3, форма = 3, шкала = 1, коефіцієнт цензури = .15, і час цензури = .88. Я знаю, як генерувати зразок Вейбулла, але не знаю, як генерувати …

11 r survival simulation random-generation

4

Розбийте дані на N рівних груп

У мене є кадр даних, який містить значення в 4 стовпцях: Наприклад: ID, price, click count,rating Що я хотів би зробити, це "розділити" цей кадр даних на N різних груп, де кожна група матиме рівну кількість рядків з однаковим розподілом атрибутів ціни, кількості кліків та рейтингів. Будь-яка порада дуже вдячна, …

11 r distributions

2

Як виконати залишковий аналіз для бінарних / дихотомічних незалежних предикторів при лінійній регресії?

Я виконую декілька лінійних регресій нижче в R, щоб передбачити прибуток на керований фонд. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) Тут лише GRI та MBA є двійковими / дихотомічними предикторами; решта предикторів безперервні. Я використовую цей код для створення залишкових графіків для бінарних змінних. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line …

11 r multiple-regression categorical-data heteroscedasticity residuals

4

Як поводитися з відсутніми значеннями, щоб підготувати дані для вибору функцій за допомогою LASSO?

Моя ситуація: невеликий розмір зразка: 116 двійкова змінна результат довгий список пояснювальних змінних: 44 пояснювальні змінні не надходили з моєї голови; їх вибір ґрунтувався на літературі. більшість випадків у вибірці та більшість змінних мають відсутні значення. Вибраний підхід до вибору функцій: LASSO Пакет glmnet R не дозволить мені запустити програму …

11 r spss lasso data-imputation

1

Тест на співвідношення ймовірності та тест Вальда дають різний висновок щодо glm в R

Я відтворюю приклад із узагальнених, лінійних та змішаних моделей . Мій MWE нижче: Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), …

11 r logistic generalized-linear-model likelihood-ratio z-test

3

Як перевірити, чи відповідають мої дані нормальному розповсюдженню журналу?

Я хотів би перевірити, Rчи відповідають мої дані нормальним журналом чи дистрибутивом Pareto. Як я міг це зробити? Можливо, ks.testміг би мені допомогти це зробити, але як я можу отримати параметри αα\alpha і кkk для розподілу Парето для своїх даних?

11 r regression distributions lognormal pareto-distribution

3

Сукупний / кумулятивний графік (або “Візуалізація кривої Лоренца”)

Я не знаю, як називаються такі сюжети, і тому я просто дав це питання дурною назвою. Скажімо, я маю впорядкований набір даних наступним чином 4253 4262 4270 4383 4394 4476 4635 ... Кожне число відповідає кількості повідомлень, які певний користувач внесли на веб-сайт. Я емпірично досліджую явище "нерівності участі", визначене …

11 r distributions data-visualization

2

Інтерпретація підсумкової функції для lm-моделі в R

Яке значення t valueі Pr(>|t|)при використанні summary()функції на лінійній регресійній моделі в R? Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.1595 1.3603 7.469 1.11e-13 *** log(var) 0.3422 0.1597 2.143 0.0322 *

11 r regression generalized-linear-model

2

Зважування балів схильності при аналізі Кокса та коваріату

Щодо зважування балів схильності (IPTW) під час моделювання пропорційного ризику Кокса даних про виживання часу до події: У мене є потенційні дані реєстру, де нам цікаво переглянути ефект від лікування ліками, які в більшості випадків пацієнти вже приймали на початковому рівні. Тому я не впевнений, як найкраще проаналізувати дані. Потенційно, …

11 r survival cox-model propensity-scores

6

Ідентифікація нелінійних регресій

Я займаюся дослідженнями в області функціональної реакції кліщів. Я хотів би зробити регресію для оцінки параметрів (швидкість атаки та час обробки) функції Роджерса типу II. У мене є набір даних про вимірювання. Як я можу найкращим чином визначити людей, що вижили? Для моєї регресії я використовую наступний скрипт у R …

11 r outliers nonlinear-regression

2

Як покращити стабільність нейронної мережі?

Я використовую Neuralnet в R, щоб побудувати мережу NN з 14 входами і одним виходом. Я будую / треную мережу кілька разів, використовуючи одні й ті ж вхідні дані навчання та ті ж мережеві архітектури / налаштування. Після створення кожної мережі я використовую її на окремому наборі тестових даних для …

11 r machine-learning neural-networks

1

Коефіцієнт Джині та межі помилок

У мене є часовий ряд даних з N = 14 підрахунків у кожний момент часу, і я хочу обчислити коефіцієнт Джіні та стандартну помилку для цієї оцінки в кожний момент часу. Так як у мене є лише N = 14 підрахунків у кожній точці часу, я продовжував обчислення дисперсії джек-ножа, …

11 r variance econometrics resampling gini

2

Проблема перетворення з коефіцієнта в числову змінну в R [закрито]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 7 років тому . Я хотів би перетворити змінну коефіцієнта в числову, але as.numericне очікує ефекту. Нижче я отримую підсумкову статистику числової версії змінної на основі …

11 r data-transformation

1

Як перевірити, чи мої дані дискретні чи безперервні?

Мені здається, що для вибору правильних статистичних інструментів я повинен спочатку визначити, чи є мій набір даних дискретним чи безперервним. Не могли б ви заучити мене, як я можу перевірити, чи дані дискретні чи безперервні з R?

11 r continuous-data discrete-data

Запитання з тегом «r»