Статистика та великі дані regression

7

Яка користь від розриву суцільної змінної предиктора?

Мені цікаво, яке значення має взяття суцільної змінної предиктора та розбиття його (наприклад, на квінтили), перш ніж використовувати його в моделі. Мені здається, що, поширюючи змінну, ми втрачаємо інформацію. Це просто так, щоб ми могли моделювати нелінійні ефекти? Якби ми зберігали змінну безперервною, і це насправді не було прямим лінійним …

78 regression modeling continuous-data binning regression-strategies

3

Приклад: регресія LASSO з використанням glmnet для двійкового результату

Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Коли R квадрат негативний?

Я розумію, що не може бути негативним, оскільки це квадрат Р. Однак я провів просту лінійну регресію в SPSS з єдиною незалежною змінною та залежною змінною. Мій вихід SPSS дає мені негативне значення для . Якби я розраховував це вручну з R, тоді було б позитивним. Що SPSS зробив, щоб …

77 regression spss r-squared

5

Які сучасні, легко використовувані альтернативи ступінчастій регресії?

У мене є набір даних з близько 30 незалежних змінних і я б хотів побудувати узагальнену лінійну модель (GLM) для дослідження взаємозв'язку між ними та залежною змінною. Я усвідомлюю, що метод, якого я вчив для цієї ситуації, поетапна регресія, зараз вважається статистичним гріхом . Які сучасні методи вибору моделі слід …

76 regression generalized-linear-model model-selection stepwise-regression

3

Чому Lasso забезпечує змінний вибір?

Я читав Елементи статистичного навчання , і хотів би знати, чому Лассо забезпечує змінний вибір, а регрес хребта не робить. Обидва способи мінімізують залишкову суму квадратів і обмежують можливі значення параметрів . Для Лассо обмеження є , тоді як для хребта це , для деякого .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt …

76 regression feature-selection lasso regularization

3

Чому логістичну регресію не називають логістичною класифікацією?

Оскільки логістична регресія є моделлю статистичної класифікації, яка займається категорично залежними змінними, чому її не називають логістичною класифікацією ? Чи не слід ім'я "Регресія" зарезервувати для моделей, що працюють з постійними залежними змінними?

75 regression machine-learning logistic classification terminology

3

Діагностика логістичної регресії?

Для лінійної регресії ми можемо перевірити діагностичні графіки (графіки залишків, графіки нормальної QQ тощо), щоб перевірити, чи порушено припущення про лінійну регресію. Для логістичної регресії у мене виникають проблеми з пошуком ресурсів, які пояснюють, як діагностувати придатність моделі логістичної регресії. Викопуючи деякі курсові записки для GLM, це просто стверджує, що …

74 regression logistic

6

Навіщо використовувати градієнтний спуск для лінійної регресії, коли доступний математичний розчин закритої форми?

Я проходив курси машинного навчання в Інтернеті та дізнався про градієнтний спуск для обчислення оптимальних значень у гіпотезі. h(x) = B0 + B1X чому нам потрібно використовувати Gradient Descent, якщо нам легко знайти значення за наведеною нижче формулою? Це виглядає прямо вперед і легко. але GD потребує декількох ітерацій, щоб …

73 regression machine-learning gradient-descent

9

Як слід поводитися з випускниками в лінійному регресійному аналізі?

Часто статистичному аналітику вручають встановлений набір даних і запитують підходити до моделі за допомогою такої методики, як лінійна регресія. Дуже часто набір даних супроводжується відмовою від відповідальності, подібною до "О так, ми заплуталися, збираючи деякі з цих точок даних - робіть все, що можете". Така ситуація призводить до регресійних припадків, …

73 regression outliers

7

Правила великого пальця для мінімального розміру вибірки для багаторазової регресії

У контексті дослідницької пропозиції із соціальних наук мені поставили таке питання: Я завжди йшов на 100 + м (де m - кількість предикторів) при визначенні мінімального розміру вибірки для множинної регресії. Чи підходить це? У мене дуже часто виникають подібні запитання, часто з різними правилами. Я також дуже багато читав …

72 regression sample-size power-analysis rule-of-thumb

10

Який повний перелік звичайних припущень для лінійної регресії?

Які звичайні припущення для лінійної регресії? Чи включають вони: лінійна залежність між незалежною та залежною змінною незалежні помилки нормальний розподіл помилок гомоскедастичність Чи є інші?

72 regression assumptions

2

Вирішення параметрів регресії у закритому вигляді та градієнті спуску

У курсі машинного навчання Ендрю Нґ він вводить лінійну регресію та логістичну регресію та показує, як підігнати параметри моделі за допомогою градієнтного спуску та методу Ньютона. Я знаю, що градієнтний спуск може бути корисним для деяких застосувань машинного навчання (наприклад, зворотної пропорції), але в більш загальному випадку є якась причина, …

71 regression machine-learning logistic gradient-descent

8

Створити випадкову змінну з визначеною кореляцією до існуючої змінної

Для дослідження моделювання я повинен генерувати випадкові змінні , які показують prefined (населення) кореляцію з існуючою YYY . Я подивився в Rпакети copulaі CDVineякі можуть виробляти випадкові багатовимірні розподілу із заданою структурою залежностей. Однак неможливо зафіксувати одну із отриманих змінних до існуючої змінної. Будь-які ідеї та посилання на існуючі функції …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Як уявити, що робить канонічний кореляційний аналіз (порівняно з тим, що робить аналіз основних компонентів)?

Канонічний кореляційний аналіз (CCA) - це техніка, що стосується аналізу основних компонентів (PCA). Хоча легко навчити PCA або лінійну регресію за допомогою діаграми розкидання (див. Кілька тисяч прикладів пошуку зображень google), я не бачив подібного інтуїтивного двовимірного прикладу для CCA. Як наочно пояснити, що робить лінійна CCA?

70 regression data-visualization pca canonical-correlation geometry

12

Які є найпоширеніші помилки щодо лінійної регресії?

Мені цікаво, для тих із вас, хто має великий досвід співпраці з іншими дослідниками, які найпоширеніші помилки щодо лінійної регресії, з якими ви стикаєтесь? Я думаю, може бути корисною вправою, щоб заздалегідь подумати про поширені помилки, щоб це зробити Передбачте помилки людей і зможете успішно сформулювати, чому деякі неправильні уявлення …

70 regression multiple-regression

Запитання з тегом «regression»