Статистика та великі дані regression

2

Недоброякісна коваріаційна матриця в регресії GP для байєсівської оптимізації

Передумови та проблеми Я використовую Гауссові процеси (GP) для регресії та подальшої байєсівської оптимізації (BO). Для регресії я використовую пакет gpml для MATLAB з кількома модифікаціями на замовлення, але проблема загальна. Загальновідомий факт, що коли два тренувальних введення занадто близькі у вхідному просторі, коваріаційна матриця може стати не позитивно визначеною …

12 regression covariance-matrix gaussian-process bayesian-optimization

1

Очікуване значення , коефіцієнт визначення, під нульовою гіпотезою

Мені цікаво твердження, зроблене внизу першої сторінки цього тексту стосовно коригуванняR2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). У тексті зазначено: Логіка коригування така: у звичайній множинній регресії випадковий предиктор пояснює в середньому частку 1/(n–1)1/(n–1)1/(n – 1) варіації відповіді, так що mmm випадкові предиктори пояснюють разом, в середньому, m/(n–1)m/(n–1)m/(n – 1) варіації відповіді; іншими словами, …

12 regression expected-value goodness-of-fit r-squared

4

Зрозуміло, що проблема добре підходить для лінійної регресії

Я вивчаю лінійну регресію, використовуючи Вступ до лінійного регресійного аналізу Монтгомері, Пека та Вінінга . Я хотів би вибрати проект аналізу даних. Я наївно вважаю, що лінійна регресія підходить лише тоді, коли можна підозрювати, що між пояснювальними змінними та змінною відповіді існують лінійні функціональні зв'язки. Але, здається, не багато додатків …

12 regression data-transformation model linear regression-strategies

2

Переведення проблеми машинного навчання в регресійну систему

Припустимо, у мене є панель пояснювальних змінних , для , , а також вектор змінних залежних від бінарних результатів . Тож спостерігається лише в кінцевий час а не в будь-який раніше час. Повністю загальний випадок полягає в тому, щоб мати кілька для для кожної одиниці в кожен момент часу , …

12 regression machine-learning reinforcement-learning

3

Чому метод класифікації (розбиття даних на навчання та тестування) не використовується в класичній статистиці?

У моїй аудиторії впливу даних обміну даними метод тримання був запроваджений як спосіб оцінки продуктивності моделі. Однак, коли я взяв свій перший клас на лінійних моделях, це не було запроваджено як засіб перевірки чи оцінки моделі. Моє онлайн-дослідження також не показує ніякого перехрестя. Чому метод класифікації не використовується в класичній …

12 regression validation model-evaluation out-of-sample

3

Розуміння параметрів функції Гаусса Базиса, що використовуються в лінійній регресії

Я хотів би застосувати функцію бази Гаусса в реалізації лінійної регресії. На жаль, мені важко зрозуміти пару параметрів у базовій функції. Зокрема μμ\mu і σσ\sigma . Мій набір даних - матриця 10 000 х 31. 10 000 зразків та 31 особливість. Я читав, що "Кожна основна функція перетворює вхідний вектор …

12 regression machine-learning basis-function

2

Чи більш імовірно, що зазвичай розподілені X і Y призводять до нормально розподілених залишків?

Тут обговорюється неправильне трактування припущення про нормальність в лінійній регресії (що "нормальність" позначає X та / або Y, а не залишки), і плакат запитує, чи можливо не нормально розподілені X і Y і все ще мають нормально розподілені залишки. Моє запитання: як правило, розподілені X і Y мають більше шансів …

12 regression normal-distribution data-transformation residuals assumptions

2

Чи можна робити імовірнісні твердження з інтервалами прогнозування?

Я прочитав безліч чудових дискусій на сайті щодо інтерпретації довірчих інтервалів та інтервалів прогнозування, але одна концепція все ще трохи спантеличує: Розглянемо рамку OLS, і ми отримали відповідну модель . Нам дали і попросили передбачити його відповідь. Ми обчислюємо і, як бонус, ми також надаємо 95% інтервал прогнозування навколо нашого …

12 regression confidence-interval prediction-interval

2

Поетапна регресія в R - критичне р-значення

Яке критичне значення р використовується step()функцією в R для поступової регресії? Я припускаю, що це 0,15, але чи моє припущення правильне? Як я можу змінити критичне p-значення?

12 r regression p-value stepwise-regression

5

Як виконати імпутацію значень у дуже великій кількості точок даних?

У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

4

Припущення щодо регресійного залишкового розподілу

Чому необхідно розміщувати припущення про розподіл на помилках, тобто yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , приϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) . Чому б не написати yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} зуi∼ N( Xβ^, σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , де в будь-якому випадку ϵi= уi- у^ϵi=yi−y^\epsilon_i = y_i - \hat{y} . Я бачив, як …

12 regression normal-distribution residuals assumptions notation

1

Моделювання, коли залежна змінна має "межування"

Вибачте заздалегідь, якщо будь-яка термінологія, яку я використовую, є невірною. Я вітаю будь-які виправлення. Якщо те, що я характеризую як "відсікання", має інше ім'я, дайте мені знати, і я можу оновити питання. Мене цікавить ситуація така: у вас є незалежні змінні і одна залежна змінна . Я залишу це розпливчастим, …

12 regression modeling survival censoring

1

Інформація з матриці капелюхів для логістичної регресії

Мені зрозуміло, і на кількох сайтах добре пояснено, яку інформацію дають значення по діагоналі капелюшкової матриці для лінійної регресії. Матриця капелюхів моделі логістичної регресії мені менш зрозуміла. Чи вона ідентична інформації, яку ви отримуєте з матриці капелюхів, застосовуючи лінійну регресію? Це визначення матриці капелюхів я знайшов у іншій темі резюме …

12 regression logistic

5

Рекурсивний (онлайн) алгоритм регуляризованих найменших квадратів

Чи може хтось вказати мені в напрямку онлайн (рекурсивного) алгоритму регуляризації Тихонова (регуляризовані найменші квадрати)? У режимі офлайн я б обчислював β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY використовуючи свій оригінальний набір даних, де λλλ знайдено за допомогою n-кратної перехресної перевірки. Нове значення yyy можна передбачити для даного xxx використовуючи y=xTβ^y=xTβ^y=x^T\hat\beta . В онлайн-налаштуваннях я постійно …

12 regression machine-learning least-squares regularization online

2

Чому деякі люди перевіряють регресійні припущення щодо моделей на своїх необроблених даних, а інші перевіряють їх на залишкові?

Я докторант з експериментальної психології і намагаюся вдосконалити свої вміння та знання щодо того, як аналізувати свої дані. До мого 5-го курсу психології я вважав, що регресійні моделі (наприклад, ANOVA) передбачають такі речі: нормальність даних дисперсія гомогенності даних тощо Мої бакалаврські курси спонукають мене до думки, що припущення стосуються даних. …

12 regression dataset residuals assumptions

Запитання з тегом «regression»