Запитання з тегом «ridge-regression»

Метод регуляризації для регресійних моделей, який зменшує коефіцієнти до нуля.

1
Чи регресія з регуляризацією L1 така сама, як у Лассо, а з регуляризацією L2 така ж, як і регресія хребта? А як написати "Лассо"?
Я програмний інженер, який навчається машинному навчанню, зокрема, через курси машинного навчання Ендрю Нґ . Під час вивчення лінійної регресії з регуляризацією я виявив терміни, які заплутані: Регресія з L1 регуляризацією або L2 регуляризацією ЛАССО Регресія хребта Тож мої запитання: Чи регресія з регуляризацією L1 точно така ж, як і …



2
Коли регуляризація L1 працюватиме краще, ніж L2 і навпаки?
Примітка. Я знаю, що L1 має властивість вибору функцій. Я намагаюся зрозуміти, яку вибрати, коли вибір функції абсолютно не має значення. Як вирішити, яку регуляризацію (L1 або L2) використовувати? Які плюси і мінуси кожної регуляризації L1 / L2? Чи рекомендується 1-й зробити вибір функції за допомогою L1 і потім застосувати …

2
Чому регрес хребта glmnet дає мені іншу відповідь, ніж ручний розрахунок?
Я використовую glmnet для розрахунку оцінок регресії хребта. Я отримав певні результати, які змусили мене підозріти в тому, що glmnet справді робить те, що, на мою думку, це робить. Щоб перевірити це, я написав простий R-скрипт, де я порівнюю результат регресії хребта, виконаного рішенням, і той, який є в glmnet, …

3
Інтерпретація регуляризації хребта в регресії
У мене є кілька запитань щодо каймового штрафу в контексті найменших квадратів: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Вираз говорить про те, що матриця коваріації X скорочується до діагональної матриці, тобто, якщо припустити, що змінні стандартизовані перед процедурою, кореляція між вхідними змінними буде знижена. Чи правильне це тлумачення? 2) …

4
Оцінка регресії L1 середня, тоді як оцінки регресії L2 означають?
Тож мені було задано питання, за якими центральними заходами L1 (тобто ласо) та L2 (тобто регресія хребта) оцінювали. Відповідь L1 = середня, а L2 = середня. Чи існує якийсь тип інтуїтивного міркування на це? Або це потрібно визначати алгебраїчно? Якщо так, то як мені це робити?

1
Мостовий штраф проти регуляризації еластичної мережі
Деякі штрафні функції та наближення добре вивчені, такі як LASSO ( L1L1L_1 ) та Хребет ( L2L2L_2 ), і як вони порівнюються в регресії. ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Веньцзян [ 1 ] порівнював Бридж-штраф, коли з LASSO, але я не зміг знайти порівняння з регуляризацією Еластичної мережі, комбінацією …

2
Межа оцінювача регресії хребта "одинична дисперсія" при
Розглянемо регресію хребта з додатковим обмеженням, що вимагає, щоб має одиницю суми квадратів (еквівалентно одиниці дисперсії); при необхідності можна припустити, що має одиничну суму квадратів:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Яка межа β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* коли λ→∞λ→∞\lambda\to\infty ? Ось кілька тверджень, які …

2
охоплення довірчих інтервалів з регульованими оцінками
Припустимо, я намагаюся оцінити велику кількість параметрів за деякими великомірними даними, використовуючи якісь регульовані оцінки. Регуляризатор вносить певні упередження до оцінок, але це все ще може бути гарним компромісом, оскільки зменшення дисперсії повинно перевищувати його. Проблема виникає, коли я хочу оцінити довірчі інтервали (наприклад, використовуючи наближення Лапласа або завантажуючи). Зокрема, …

5
Причина не зменшення терміну упередженості (перехоплення) в регресії
Для лінійної моделі , термін усадки завжди .P ( β )y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Що є причиною того, що ми не скорочуємо термін упередження (перехоплення) ? Чи варто скорочувати термін зміщення в моделях нейронної мережі?β0β0\beta_0

2
Які припущення про регресію хребта і як їх перевірити?
Розглянемо стандартну модель для множинної регресії де , тому нормальність, гомоскедастичність та некорельованість помилок утримуються.Y= Xβ+ εY=Хβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2Ян)ε∼N(0,σ2Ян)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Припустимо, що ми виконуємо регресію хребта, додаючи однакову невелику кількість до всіх елементів діагоналі :ХХX βr i d g e= [ X'Х+ к я]- …

1
Доведення коефіцієнтів усадки за допомогою регресії хребта за допомогою "спектрального розкладання"
Я зрозумів, як регресія хребта зменшує коефіцієнти до нуля геометрично. Більше того, я знаю, як довести це в спеціальній "Ортонормічній справі", але мене бентежить, як це працює в загальному випадку за допомогою "Спектральної декомпозиції".

2
Оцінка R-квадратної та статистичної значущості за допомогою пеналізованої регресійної моделі
Я використовую пакет R штрафується отримати зморщені оцінки коефіцієнтів для набору даних , де у мене є багато провісників і мало знань, які з них мають важливе значення. Після того, як я вибрав параметри настройки L1 і L2, і я задоволений своїми коефіцієнтами, чи є статистично обгрунтований спосіб узагальнити підхід …

3
Зв'язок між регресією хребта та регресією PCA
Я пам’ятаю, що десь в Інтернеті прочитав зв’язок між регресією хребта (з регуляризацією) та регресією PCA: використовуючи регресію з гіперпараметром , якщо , то регресія еквівалентна видаленню ПК змінна з найменшим власним значенням.ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 Чому це правда? Чи має це щось спільне з процедурою оптимізації? Наївно, я …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.