Запитання з тегом «ridge-regression»

Метод регуляризації для регресійних моделей, який зменшує коефіцієнти до нуля.

2
Регресія хребта - байєсова інтерпретація
Я чув, що регресія хребта може бути отримана як середнє значення заднього розподілу, якщо попередній адекватно обраний. Чи є інтуїція, що обмеження, встановлені на коефіцієнти регресії за попередніми (наприклад, стандартні нормальні розподіли навколо 0), ідентичні / замінюють штраф, встановлений на квадратному розмірі коефіцієнтів? Чи повинен попередній бути гауссом, щоб дотримуватися …

1
Релаксація Лагрангія в умовах регресії хребта
У статті "Елементи статистичного навчання" (2-е видання), с. 63, автори дають наступні дві постановки проблеми регресії хребта: β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβ2j}β^ridge=argminβ{∑i=1N(yi−β0−∑j=1pxijβj)2+λ∑j=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \right\} і β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβ2j≤t.β^ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2, subject to ∑j=1pβj2≤t. \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 \text{, subject to } \sum_{j=1}^p \beta_j^2 …

4
Доказ рівнозначних формул регресії хребта
Я читав найпопулярніші книги в статистичному навчанні 1- Елементи статистичного навчання. 2- Вступ до статистичного навчання . Обидва згадують, що регресія хребта має дві формули, рівнозначні. Чи є зрозумілий математичний доказ цього результату? Я також пройшов Cross Valified , але я не можу знайти певного доказу там. Крім того, буде …

1
Коефіцієнти регресії хребта, що перевищують коефіцієнти OLS або змінюють знак залежно від
Як виконується регресія хребта, як ви інтерпретуєте коефіцієнти, які в кінцевому підсумку перевищують їх відповідні коефіцієнти під мінімальними квадратами (для певних значень )? Чи не повинна регресія хребта монотонно зменшувати коефіцієнти?λλ\lambda Як пов'язано з приміткою, як можна інтерпретувати коефіцієнт, знак якого змінюється під час регресії хребта (тобто траєкторія хребта перетинає …


2
AIC, BIC та GCV: що найкраще приймати рішення в методах санкціонованої регресії?
Моє загальне розуміння - AIC стосується компромісу між хорошою придатністю моделі та складністю моделі. А яС= 2 k - 2 l n ( L )AIC=2k−2ln(L)AIC =2k -2ln(L) кkk = кількість параметрів у моделі LLL = ймовірність Байєсівський інформаційний критерій BIC тісно пов'язаний з AIC. AIC карає кількість параметрів менш сильно, …

1
Чому регрес Рейда добре працює за наявності мультиколінеарності?
Я дізнаюсь про регресію хребта і знаю, що регресія хребта працює краще за наявності мультиколінеарності. Мені цікаво, чому це правда? Буде задовольняти або інтуїтивна відповідь, або математична (обидва типи відповідей будуть ще більш задоволеними). Крім того , я знаю, що β завжди можна отримати, але наскільки добре хребет регресія робота …

1
AIC регресії хребта: ступінь свободи та кількість параметрів
Я хочу обчислити AICc моделі регресії хребта. Проблема - кількість параметрів. Для лінійної регресії більшість людей припускають, що кількість параметрів дорівнює кількості оцінених коефіцієнтів плюс сигма (дисперсія похибки). Якщо мова йде про регресію хребта, я читаю, що слід матриці капелюхів - ступінь свободи (df) - просто використовується як кількість термінів …


2
Чому регресія хребта не може забезпечити кращу інтерпретацію, ніж LASSO?
У мене вже є уявлення про плюси і мінуси регресії хребта та LASSO. Для LASSO штрафний термін L1 дасть вектор розрідженого коефіцієнта, який можна розглядати як метод вибору функції. Однак для LASSO є деякі обмеження. Якщо функції мають високу кореляцію, LASSO вибере лише одну з них. Крім того, для проблем, …

2
Збільшити штрафи GLM, використовуючи збільшення рядків?
Я читав, що регресія хребта може бути досягнута простим додаванням рядків даних до вихідної матриці даних, де кожен рядок побудований з використанням 0 для залежних змінних та квадратного кореня або нуля для незалежних змінних. Потім додається один додатковий рядок для кожної незалежної змінної.кkk Мені було цікаво, чи можна отримати доказ …

2
Показано еквівалентність між нормалізованою регресією регрес та нормально обмеженою регресією за допомогою KKT
Відповідно до посилань Книга 1 , Книга 2 та папір . Було зазначено, що існує рівнозначність між регульованою регресією (Ridge, LASSO та Elastic Net) та їх формулами обмеження. Я також переглянув Cross Valified 1 та Cross Validated 2 , але я не можу побачити чітку відповідь, що свідчить про еквівалентність …

1
Розуміння негативної регресії хребта
Я шукаю літературу про негативну регресію хребта . Коротше кажучи, це узагальнення лінійної регресії з використанням коника негативний λλ\lambda у формулі β^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.Позитивний випадок має хорошу теорію: як функція втрат, як обмеження, як Байєс до ... але я відчуваю втрату від негативної …

5
Норми хребта та LASSO
Цей пост слідує за цим: Чому оцінка хребта стає кращою за OLS, додаючи константу до діагоналі? Ось моє запитання: Наскільки мені відомо, регуляризація хребта використовує (евклідова відстань). Але чому ми використовуємо квадрат цієї норми? (пряме застосування призведе до квадратного кореня суми бета-квадрата).ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Для порівняння, ми не робимо цього для …

1
Як інтерпретувати результати, коли і гребінець, і ласо окремо працюють добре, але дають різні коефіцієнти
Я запускаю регресійну модель як з Лассо, так і з Ріджем (для прогнозу дискретної змінної результату в межах від 0 до 5). Перш ніж запустити модель, я використовую SelectKBestметод scikit-learnзменшення набору функцій з 250 до 25 . Без початкового вибору особливостей і Лассо, і Рідж поступаються нижчим показникам точності [що …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.