Статистика та великі дані regression

3

Які переваги лінійної регресії перед квантильною регресією?

Модель лінійної регресії створює купу припущень, що квантильна регресія не має, і, якщо допущення лінійної регресії виконуються, то моя інтуїція (і деякий дуже обмежений досвід) полягає в тому, що середня регресія дала б майже однакові результати, як лінійна регресія. Отже, які переваги має лінійна регресія? Це, звичайно, звичніше, але крім …

15 regression multiple-regression quantile-regression

7

Яку криву (або модель) я повинен відповідати моїм процентним даним?

Я намагаюся створити фігуру, яка показує взаємозв'язок між вірусними копіями та покриттям геному (GCC). Ось так виглядають мої дані: Спочатку я просто побудував лінійну регресію, але мої керівники сказали мені, що це неправильно, і спробувати сигмоїдальну криву. Тому я зробив це за допомогою geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y …

15 regression modeling curve-fitting percentage

1

Чи сума двох дерев рішень рівнозначна одному дереву рішень?

Припустимо , що ми маємо два регресійних дерев (Дерево і дерево B) , що відображення вхідних для виведення у ∈ R . Нехай у = е А ( х ) для дерева A і F B ( х ) для дерева B. Кожного дерева використовує двійковий шпагат, з гіперплоскостямі як …

15 regression machine-learning cart

5

Чи це обман для того, щоб скинути авангардистів на основі осередкової середньої абсолютної помилки для вдосконалення регресійної моделі

У мене є модель прогнозування, протестована чотирма методами, як ви бачите на малюнку boxplot нижче. Атрибут, який передбачає модель, знаходиться в межах 0-8. Ви можете помітити, що існує одна верхня межа та три нижньої межі, що вказана усіма методами. Цікаво, чи доцільно видалити ці дані з даних? Або це свого …

15 regression machine-learning multiple-regression predictive-models outliers

1

Незаангажований оцінювач співвідношення двох коефіцієнтів регресії?

Припустимо, вам підходить лінійна / логістична регресія , з метою неупередженої оцінки . Ви дуже впевнені, що і дуже позитивно відносно шуму в їх оцінках.g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 Якщо у вас спільна коваріація , ви можете прорахувати або принаймні імітувати відповідь. Чи є кращі способи, …

15 regression regression-coefficients unbiased-estimator ratio

4

Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій

Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Розуміння QR-декомпозиції

У мене є відпрацьований приклад (в R), який я намагаюся зрозуміти далі. Я використовую Limma для створення лінійної моделі, і я намагаюся зрозуміти, що відбувається крок за кроком у розрахунках зміни складок. Я в основному намагаюся розібратися, що відбувається для обчислення коефіцієнтів. З того, що я можу зрозуміти, QR-декомпозиція використовується …

15 r regression linear-model

1

Інші об'єктивні оцінки, ніж BLUE (рішення OLS) для лінійних моделей

Для лінійної моделі рішення OLS забезпечує найкращий лінійний неупереджений оцінювач параметрів. Звичайно, ми можемо торгувати ухилом для меншої дисперсії, наприклад, регресія хребта Але моє запитання стосується відсутності упередженості. Чи існують якісь загальноприйняті інші оцінки, які є неупередженими, але з більшою дисперсією, ніж оцінені параметри OLS? Якби у мене був величезний …

15 regression least-squares linear unbiased-estimator blue

2

Питання про відхилення відхилення відхилення

Я намагаюся зрозуміти компромісію зміщення зміщення, співвідношення між зміщенням оцінювача та зміщенням моделі та співвідношення між дисперсією оцінювача та дисперсією моделі. Я прийшов до таких висновків: Ми схильні перевищувати дані, коли ми нехтуємо зміщенням оцінювача, тобто тоді, коли ми прагнемо лише мінімізувати зміщення моделі, нехтуючи дисперсією моделі (іншими словами, ми …

15 regression variance bias bias-variance-tradeoff

1

Регресія в налаштуваннях

Я намагаюся зрозуміти, чи варто йти на регресію хребта , LASSO , регресію основного компонента (PCR) або часткові найменші квадрати (PLS) у ситуації, коли існує велика кількість змінних / ознак ( ) та менша кількість зразків ( n < p ), і моя мета - передбачення.pppn<pn<pn np>10np>10np>10n Змінні ( і …

15 regression pca lasso ridge-regression partial-least-squares

3

Прогнозування дисперсії гетеросептичних даних

Я намагаюся зробити регресію на гетеросептичних даних, де я намагаюся передбачити відхилення помилок, а також середні значення з точки зору лінійної моделі. Щось на зразок цього: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} y(x,t)y(x,t)y(x,t)xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,tx,txxxttt y¯y¯\bar{y} σσ\sigmay0,a,b,σ0,cy0,a,b,σ0,cy_0, a, b, \sigma_0, cddd

15 regression spss variance residuals heteroscedasticity

4

Підводні камені, яких слід уникати при перетворенні даних?

Я домігся сильної лінійної залежності між моєю змінною XXX та YYY після подвійного перетворення відповіді. Модель була Y∼XY∼XY\sim X але я перетворив її на YX−−√∼X−−√YX∼X\sqrt{\frac{Y}{X}}\sim \sqrt{X} покращуючиR2R2R^2від .19 до .76. Зрозуміло, що я зробив деякі пристойні операції з цього приводу. Чи може хтось обговорити дефекти цього, наприклад, небезпеки надмірних перетворень …

15 regression data-transformation r-squared

1

Яка інтуїція за обмінними зразками під нульовою гіпотезою?

Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

4

Як мені здійснити регресію щодо ненормативних даних, які залишаються ненормальними при трансформації?

У мене є деякі дані (158 випадків), які були отримані з відповіді за шкалою Лікерта на 21 пункт анкети. Мені дуже хочеться / потрібно провести регресійний аналіз, щоб побачити, які елементи в анкеті прогнозують відповідь на загальний предмет (задоволення). Відповіді зазвичай не поширюються (згідно з тестами на KS), і я …

15 regression distributions nonparametric

2

Точне значення та порівняння між впливовою точкою, високою точкою важеля та іншими?

З Вікіпедії Впливові спостереження - це ті спостереження, які мають відносно великий вплив на прогнози регресійної моделі. З Вікіпедії Отримані позитивні точки - це спостереження, якщо такі є, зроблені при екстремальних або зовнішніх значеннях незалежних змінних, так що відсутність сусідніх спостережень означає, що відповідна модель регресії буде проходити близько до …

15 regression outliers leverage

Запитання з тегом «regression»