Запитання з тегом «shrinkage»

Включення додаткових обмежень (як правило, штраф за складність) у процесі встановлення моделі. Використовується для запобігання перевитрат / підвищення точності прогнозування.


5
Єдиний погляд на усадку: яке співвідношення (якщо воно є) між парадоксом Штейна, регресією хребта та випадковими ефектами у змішаних моделях?
Розглянемо наступні три явища. Парадокс Штейна: з огляду на деякі дані багатовимірного нормального розподілу в , середнє значення вибірки не є дуже хорошим оцінником справжнього середнього. Оцінку можна отримати з нижньою середньою помилкою у квадраті, якщо зменшити всі координати середнього зразка у напрямку до нуля [або до їх середнього значення, …

5
Яку проблему вирішують методи усадки?
Сезон відпусток дав мені змогу згорнутися біля вогню з елементами статистичного навчання . Виходячи з (частої) перспективи економетрики, у мене виникають проблеми з розумінням використання методів усадки, таких як регресія хребта, ласо і найменший кут регресії (ЛАР). Як правило, мене цікавлять оцінки самих параметрів та досягнення неупередженості або принаймні узгодженості. …

3
Чому оцінка гребня стає кращою за OLS, додаючи константу до діагоналі?
Я розумію, що оцінка регресії хребта - це яка мінімізує залишкову суму квадрата та штраф у розміріββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Однак я не повністю розумію значення того факту, що βridgeβridge\beta_\text{ridge} відрізняється від βOLSβOLS\beta_\text{OLS} лише додаванням невеликої константи до діагоналі X′XX′XX'X . …

2
Чому працює усадка?
Для вирішення проблем вибору моделі ряд методів (LASSO, регресія хребта тощо) зменшить коефіцієнти змінних прогнозів до нуля. Я шукаю інтуїтивне пояснення, чому це покращує здатність прогнозування. Якщо справжній ефект змінної насправді був дуже великим, чому не зменшення параметра призводить до гіршого прогнозу?

6
Чи регрес хребта марний у великих розмірах ( )? Як OLS не може перевиконати?
Розглянемо стару добру проблему регресії з прогнокторами та розміром вибірки . Звичайна мудрість полягає в тому, що Оцінювач OLS буде перевершувати і, як правило, перевершує оцінку гребінної регресії:Для пошуку оптимального параметра регуляризації стандартно використовувати перехресну перевірку . Тут я використовую 10-кратне резюме. Оновлення уточнення: коли , під "Оцінювачем OLS" я …

2
Якою є скоригована R-квадратна формула в lм в R і як її слід інтерпретувати?
Яка точна формула використовується в R lm() для скоригованого R-квадрата? Як я можу це інтерпретувати? Відрегульовані формули r-квадрата Здається, існує кілька формул для обчислення скорегованого R-квадрата. Формула Веррі:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} Формула МакНемара:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} Формула Господа:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} Формула Штейна:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) Описи підручника Згідно з підручником Філда, « Відкриття статистики за допомогою R» (2012, стор. 273) R …

2
Чи справді необхідна стандартизація перед Лассо?
Я прочитав три основні причини стандартизації змінних перед чимось таким, як Lassoрегресія: 1) Інтерпретабельність коефіцієнтів. 2) Можливість ранжувати значення коефіцієнта за відносною величиною оцінок коефіцієнта після усадки. 3) Не потрібно перехоплення. Але мені цікаво найголовніше. Чи є у нас підстави думати, що стандартизація поліпшила б узагальнення вибірки моделі? Також мені …

1
Чому glmnet використовує «наївну» еластичну сітку з оригінального паперу Zou & Hastie?
β *=(1+λ2) β .L = 1н∥∥у- Xβ∥∥2+ λ1∥ β∥1+ λ2∥ β∥22,L=1н‖у-Хβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗= ( 1 + λ2) β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однак наступні glmnetстатті Фрідмана, Хасті та Тибширані (2010) Шляхи регуляризації для узагальнених лінійних моделей за допомогою координатного спуску не …

2
Переваги робити "подвійне ласо" або виконувати ласо двічі?
Я один раз почув метод використання ласо двічі (як подвійне ласо), коли ви виконуєте ласо на початковому наборі змінних, скажімо, S1, отримуєте розріджений набір під назвою S2, а потім знову виконуєте ласо на множині S2 для отримання множини S3 . Чи є для цього методологічний термін? Також, які переваги робити …

3
LASSO з умовами взаємодії - це добре, якщо основні ефекти скорочуються до нуля?
Регресія LASSO зменшує коефіцієнти до нуля, забезпечуючи ефективний вибір моделі. Я вважаю, що в моїх даних є змістовні взаємодії між номінальними та безперервними коваріатами. Однак, не обов'язково, що "основні наслідки" справжньої моделі є змістовними (не нульовими). Звичайно, я цього не знаю, оскільки справжня модель невідома. Мої цілі - знайти справжню …

5
Причина не зменшення терміну упередженості (перехоплення) в регресії
Для лінійної моделі , термін усадки завжди .P ( β )y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Що є причиною того, що ми не скорочуємо термін упередження (перехоплення) ? Чи варто скорочувати термін зміщення в моделях нейронної мережі?β0β0\beta_0

4
Які правильні значення для точності та відкликання у кращих випадках?
Точність визначається як: p = true positives / (true positives + false positives) Чи правильно, що як true positivesі false positivesпідхід 0, точність наближається до 1? Те саме запитання для відкликання: r = true positives / (true positives + false negatives) Зараз я впроваджую статистичний тест, де мені потрібно обчислити …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
Чому оцінку Джеймса-Штейна називають оцінкою "усадки"?
Я читав про оцінку Джеймса-Штейна. У цій примітці вона визначена як θ^= ( 1 - р - 2∥ X∥2) Xθ^=(1-p-2‖Х‖2)Х \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Я прочитав доказ, але не розумію наступного твердження: Геометрично оцінювач Джеймса – Штейна зменшує кожну складову напрямку походження ...ХХX Що саме означає "скорочення кожного компонента ХХX до …

2
Оцінювач Джеймса-Штейна: Як Ефрон та Морріс обчислили в коефіцієнті усадки для їх прикладу бейсболу?
У мене виникає питання щодо обчислення коефіцієнта усадки Джеймса-Штейна в науковому американському документі Бредлі Ефрона та Карла Морріса 1977 року, "Парадокс Штейна в статистиці" . Я зібрав дані для бейсболістів, і вони наведені нижче: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.