Запитання з тегом «least-squares»

Посилається на загальну техніку оцінки, яка вибирає значення параметра, щоб мінімізувати різницю в квадраті між двома величинами, такими як спостережуване значення змінної, і очікуваним значенням цього спостереження, обумовленим значенням параметра. Лінійні моделі Гаусса відповідають розмірам найменших квадратів, а найменших квадратів - ідея, що лежить в основі використання середньої квадратичної помилки (MSE) як способу оцінки оцінювача.

2
Коли використовувати методи регуляризації для регресії?
За яких обставин слід розглянути можливість використання методів регуляризації (регрес хребта, ласо або найменший кут) замість OLS? Якщо це допомагає керувати дискусією, головним моїм інтересом є підвищення точності прогнозування.

3
Чому оцінка гребня стає кращою за OLS, додаючи константу до діагоналі?
Я розумію, що оцінка регресії хребта - це яка мінімізує залишкову суму квадрата та штраф у розміріββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Однак я не повністю розумію значення того факту, що βridgeβridge\beta_\text{ridge} відрізняється від βOLSβOLS\beta_\text{OLS} лише додаванням невеликої константи до діагоналі X′XX′XX'X . …

3
Середня абсолютна помилка АБО середня коренева помилка у квадраті?
Чому слід використовувати кореневу середньоквадратичну помилку (RMSE) замість середньої абсолютної помилки (MAE) ?? Привіт Я досліджував помилку, що генерується в обчисленні - спочатку я обчислював помилку як помилку «Кореневе середнє значення». Придивившись трохи ближче, я бачу, що ефекти квадратичної помилки надають більшої ваги більшим помилкам, ніж меншим, перекосуючи оцінку помилок …
58 least-squares  mean  rms  mae 

3
Звідки походить помилкове уявлення про те, що Y повинен бути нормально розподілений?
Начебто авторитетні джерела стверджують, що залежна змінна повинна бути нормально розподілена: Модельні припущення: YYY зазвичай розподіляється, помилки нормально розподіляються, ei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) , і незалежні, і XXX є фіксованим, а постійна дисперсія σ2σ2\sigma^2 . Penn State, STAT 504 Аналіз дискретних даних По-друге, аналіз лінійної регресії вимагає, щоб усі змінні були …

5
Регресія, коли залишки OLS зазвичай не розподіляються
На цьому веб-сайті є кілька ниток, які обговорюють, як визначити, чи залишки OLS асимптотично нормально розподілені. Ще один спосіб оцінити нормальність залишків з кодом R наведений у цій чудовій відповіді . Це ще одне обговорення практичної різниці між стандартизованими та спостережуваними залишками. Але, скажімо, залишки точно не розподіляються, як у …

2
Метод максимальної ймовірності проти методу найменших квадратів
Яка основна відмінність між максимальною оцінкою ймовірності (MLE) та оцінкою найменших квадратів (LSE)? Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки?yyy Будь-яка допомога з цієї теми буде дуже вдячна.


4
Чому сигмоїдна функція замість чого-небудь іншого?
Чому де-факто стандартна сигмоїдна функція настільки популярна в (неглибоких) нейронних мережах та логістичній регресії?11+e−x11+e−x\frac{1}{1+e^{-x}} Чому б нам не скористатися багатьма іншими похідними функціями, з більш швидким часом обчислень або повільнішим розпадом (тому зникаючий градієнт трапляється менше). У Вікіпедії небагато прикладів щодо сигмоподібних функцій . Один з моїх улюблених із повільним …

5
Як отримати рішення про регресію хребта?
У мене виникають деякі проблеми з виведенням рішення для регресії хребта. Я знаю рішення регресії без терміну регуляризації: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Але після додавання терміна L2 до функції витрат, яким чином стає рішеннямλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

5
Чи мінімізація помилки у квадраті еквівалентна мінімізації абсолютної помилки? Чому квадратна помилка популярніша за останню?
Коли ми проводимо лінійну регресію щоб помістити купу точок даних , класичний підхід мінімізує помилку у квадраті. Мене давно спантеличено питанням, що мінімізація помилки в квадраті дасть такий самий результат, як мінімізація абсолютної помилки ? Якщо ні, то чому мінімізувати помилку в квадраті краще? Чи є якась інша причина, крім …

8
Чи справедливо включати базовий показник як контрольну змінну при тестуванні впливу незалежної змінної на показники змін?
Я намагаюся запустити регресію OLS: DV: Зміна ваги за рік (початкова вага - кінцева вага) IV: Ви чи не займаєтеся фізичними вправами. Однак здається розумним, що важчі люди втратять більше ваги за одиницю фізичних вправ, ніж худі люди. Таким чином, я хотів включити контрольну змінну: CV: Початковий стартовий вага. Однак …

1
Доведення того, що коефіцієнти в моделі OLS відповідають t-розподілу з (nk) ступенем свободи
Фон Припустимо, у нас є модель звичайних найменших квадратів, де у нашій регресійній моделі є kkk коефіцієнти, y=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} деββ\mathbf{\beta} є (k×1)(k×1)(k\times1) вектор коефіцієнтів, XX\mathbf{X} являє собою матрицю конструкції визначається X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & …

3
Як виконати ортогональну регресію (всього найменших квадратів) за допомогою PCA?
Я завжди використовую lm()в R для виконання лінійної регресії на . Ця функція повертає коефіцієнт такий, щоуyyхxxββ\betaу= βх .y=βx.y = \beta x. Сьогодні я дізнався про загальні найменші квадрати і цю princomp()функцію (аналіз основних компонентів, PCA) можна використовувати для її виконання. Це має бути добре для мене (точніше). Я зробив …

1
Обчислювальна повторюваність ефектів від lmer-моделі
Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
Чому RSS розподіляється чі квадратним часом np?
Я хотів би зрозуміти, чому в моделі OLS розподіляється RSS (залишкова сума квадратів) ( - кількість параметрів у моделі, кількість спостережень).χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn Прошу вибачення за те, що я задав таке основне запитання, але, здається, я не в змозі знайти відповідь в Інтернеті (або в моїх, більш орієнтованих на додатків, підручниках).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.