Запитання з тегом «regularization»

Включення додаткових обмежень (як правило, штраф за складність) у процесі встановлення моделі. Використовується для запобігання перевитрат / підвищення точності прогнозування.

3
Походження терміна "регуляризація"
Коли я ввожу поняття своїм учням, мені часто цікаво розповісти їм, звідки береться термінологія ("регресія", наприклад, термін із цікавим походженням). Мені не вдалося розкрити історію / передумови терміна "регуляризація" в статистичному / машинному навчанні. Отже, яке походження терміна регуляризація ?

1
Чому glmnet використовує «наївну» еластичну сітку з оригінального паперу Zou & Hastie?
β *=(1+λ2) β .L = 1н∥∥у- Xβ∥∥2+ λ1∥ β∥1+ λ2∥ β∥22,L=1н‖у-Хβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,β^∗= ( 1 + λ2) β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta. Однак наступні glmnetстатті Фрідмана, Хасті та Тибширані (2010) Шляхи регуляризації для узагальнених лінійних моделей за допомогою координатного спуску не …

2
Чому покарання за Лассо еквівалентно подвійній експоненції (Лапласу)?
Я читав у ряді посилань, що оцінка Лассо для вектора параметра регресії ББB еквівалентна задньому режиму ББB в якому попередній розподіл для кожного БiБiB_i є подвійним експоненціальним розподілом (також відомим як розподіл Лапласа). Я намагався це довести, чи може хтось деталізувати деталі?

6
Чому менші ваги призводять до спрощення моделей при регуляризації?
Я закінчив курс машинного навчання Ендрю Нґ близько року тому, і зараз пишу моє дослідження середньої математики про роботу логістичної регресії та методи оптимізації ефективності. Однією з таких методик є, звичайно, регуляризація. Метою регуляризації є запобігання надмірного пристосування шляхом розширення функції витрат на включення мети простоти моделі. Ми можемо досягти …

2
Переваги робити "подвійне ласо" або виконувати ласо двічі?
Я один раз почув метод використання ласо двічі (як подвійне ласо), коли ви виконуєте ласо на початковому наборі змінних, скажімо, S1, отримуєте розріджений набір під назвою S2, а потім знову виконуєте ласо на множині S2 для отримання множини S3 . Чи є для цього методологічний термін? Також, які переваги робити …

3
Навіщо використовувати оцінки Lasso над оцінками OLS для ідентифікованого Лассо підмножини змінних?
Для регресії Лассо припустимо, найкраще рішення (наприклад, мінімальна помилка тестування) вибирає функції, так що \ hat {\ beta} ^ {lasso} = \ ліворуч (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ праворуч) …

3
Інтерпретація регуляризації хребта в регресії
У мене є кілька запитань щодо каймового штрафу в контексті найменших квадратів: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Вираз говорить про те, що матриця коваріації X скорочується до діагональної матриці, тобто, якщо припустити, що змінні стандартизовані перед процедурою, кореляція між вхідними змінними буде знижена. Чи правильне це тлумачення? 2) …

5
Як найважливіші основні компоненти можуть утримати силу прогнозування залежної змінної (або навіть призвести до кращих прогнозів)?
Припустимо , що я біжу регресію Y∼XY∼XY \sim X . Чому, вибираючи компоненти kkk принципу XXX , модель зберігає свою прогнозовану потужність на YYY ? Я розумію , що з розмірністю-відновлювальних / функція відбору точки зору, якщо v1,v2,...vkv1,v2,...vkv_1, v_2, ... v_k - власні вектори матриці коваріації з верхніми власними значеннями, …

2
Чи є сенс поєднувати PCA та LDA?
Припустимо, у мене є набір даних для контрольованої статистичної задачі класифікації, наприклад, через класифікатор Байєса. Цей набір даних складається з 20 функцій, і я хочу звести його до двох функцій за допомогою методів зменшення розмірності, таких як аналіз основних компонентів (PCA) та / або лінійний дискримінантний аналіз (LDA). Обидві методи …

4
Оцінка регресії L1 середня, тоді як оцінки регресії L2 означають?
Тож мені було задано питання, за якими центральними заходами L1 (тобто ласо) та L2 (тобто регресія хребта) оцінювали. Відповідь L1 = середня, а L2 = середня. Чи існує якийсь тип інтуїтивного міркування на це? Або це потрібно визначати алгебраїчно? Якщо так, то як мені це робити?

2
Чому лямбда «в межах однієї стандартної помилки від мінімуму» є рекомендованим значенням для лямбда в еластичній чистій регресії?
Я розумію, яку роль відіграє лямбда в регресії еластичної сітки. І я можу зрозуміти, чому можна було б вибрати lambda.min, значення лямбда, що мінімізує перехресну перевірку помилок. Моє запитання: Де в статистичній літературі рекомендується використовувати lambda.1se, це значення лямбда, що мінімізує помилку CV та одну стандартну помилку ? Я не …

2
Чому Laplace раніше виробляє розріджені рішення?
Я переглядав літературу про регуляризацію, і часто бачу абзаци, що пов'язують регулятизацію L2 з Гауссовим попереднім, а L1 з Лапласом, орієнтованим на нуль. Я знаю, як виглядають ці пріори, але я не розумію, як це означає, наприклад, ваги в лінійній моделі. У L1, якщо я правильно розумію, ми очікуємо, що …

1
Мостовий штраф проти регуляризації еластичної мережі
Деякі штрафні функції та наближення добре вивчені, такі як LASSO ( L1L1L_1 ) та Хребет ( L2L2L_2 ), і як вони порівнюються в регресії. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Веньцзян [ 1 ] порівнював Бридж-штраф, коли з LASSO, але я не зміг знайти порівняння з регуляризацією Еластичної мережі, комбінацією …

2
Що таке "регресія зниженого рангу"?
Я читав "Елементи статистичного навчання" і не міг зрозуміти, про що йдеться в розділі 3.7 "Багаторазове скорочення та вибір". Це говорить про RRR (регресія зі зниженим рангом), і я можу лише зрозуміти, що передумова стосується узагальненої багатовимірної лінійної моделі, де коефіцієнти невідомі (і підлягають оцінці), але, як відомо, не мають …

3
Чому Ларс і Глмнет дають різні рішення для проблеми Лассо?
Я хочу краще зрозуміти пакети R Larsі Glmnet, які використовуються для вирішення задачі Лассо: (проpзмінні таNзразків, див.www.stanford.edu/~hastie/Papers/glmnet.pdfна сторінці 3)м я н( β0β) ∈ Rр + 1[ 12 Н∑i = 1N( уi- β0- хТiβ)2+ λ | | β| |л1]мiн(β0β)∈Rp+1[12N∑i=1N(уi-β0-хiТβ)2+λ||β||л1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN Тому я застосував їх …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.