Запитання з тегом «regularization»

Включення додаткових обмежень (як правило, штраф за складність) у процесі встановлення моделі. Використовується для запобігання перевитрат / підвищення точності прогнозування.

5
Норми хребта та LASSO
Цей пост слідує за цим: Чому оцінка хребта стає кращою за OLS, додаючи константу до діагоналі? Ось моє запитання: Наскільки мені відомо, регуляризація хребта використовує (евклідова відстань). Але чому ми використовуємо квадрат цієї норми? (пряме застосування призведе до квадратного кореня суми бета-квадрата).ℓ 2ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2 Для порівняння, ми не робимо цього для …

1
Що таке норми і наскільки вони мають відношення до регуляризації?
Останнім часом я бачу багато робіт про розріджене уявлення, і більшість із них використовують норму і роблять деяку мінімізацію. Моє запитання: що є норма , а змішаною нормою? І наскільки вони мають відношення до регуляризації?ℓ p ℓ p , qℓpℓp\ell_pℓpℓp\ell_pℓp,qℓp,q\ell_{p, q} Дякую

3
Як здійснити регуляризацію L2 до довільної точки в просторі?
Ось, що я читав у книзі Ієна Гудфеллоу « Глибоке навчання» . У контексті нейронних мереж "штраф норми параметра L2 зазвичай називають зменшенням ваги. Ця стратегія регуляризації приводить ваги ближче до початку [...]. Більш загально, ми могли б регулювати параметри, щоб бути поблизу будь-якої конкретної точки в просторі ", але …

2
Чи частота помилок є опуклою функцією лямбда параметра регуляризації?
Вибираючи параметр регуляризації лямбда в Ridge або Lasso, рекомендований метод полягає в тому, щоб спробувати різні значення лямбда, виміряти похибку у валідаційному наборі і, нарешті, обрати це значення лямбда, яке повертає найменшу помилку. Мені не чітко, якщо функція f (лямбда) = помилка - опукла. Може так бути? Тобто, чи може …

3
Чи можна (слід?) Методи регуляризації використовувати в моделі випадкових ефектів?
Під технікою регуляризації я маю на увазі ласо, регресію хребта, еластичну сітку тощо. Розглянемо модель прогнозування даних охорони здоров’я, що містять демографічні та діагностичні дані, де прогнозується тривалість перебування на стаціонарному перебуванні. Для деяких людей існує декілька спостережень ЛОС (тобто, більше одного епізоду ІР) протягом базового періоду часу, які співвідносяться. …

4
Лассо підходить за координатним походженням: реалізація з відкритим кодом? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закритий минулого року . Які реалізації з відкритим кодом - будь-якою мовою - існують там, які можуть обчислити шляхи регуляризації ласо для лінійної регресії за допомогою координатного …

1
Зв'язок LASSO між
Я розумію, що регресія LASSO полягає в тому, що коефіцієнти регресії вибираються для вирішення проблеми мінімізації: хвβ∥ у- Xβ∥22 с . т . ∥ β∥1≤ tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t На практиці це робиться за допомогою множника Лагранжа, що дозволяє вирішити проблему хвβ∥ у- …

2
Назвіть декілька найважливіших “ранніх статей” про методи регуляризації?
У кількох відповідях я бачив, що користувачі CrossValided пропонують ОП знайти перші документи про Lasso, Ridge та Elastic Net. Що стосується нащадків, які семінарні роботи про Лассо, Рідж та Еластичну Мережу?

1
Як масштабується Лассо з розміром матриці дизайну?
Якщо у мене є матриця проектування Х∈ Rn × dХ∈Rн×гX\in\mathcal{R}^{n\times d} , де - кількість спостережень розмірності , яка складність рішення для з LASSO, wrt і ? Я думаю, що відповідь має стосуватися того, як одна ітерація LASSO масштабується з цими параметрами, а не як масштабує кількість ітерацій (конвергенції), якщо …

3
Що означають статистики, коли вони кажуть, що ми не розуміємо, як працює LASSO (регуляризація)?
Нещодавно я був на кількох переговорах зі статистикою щодо Лассо (регуляризація), і ми говоримо про те, що ми не дуже розуміємо, чому працює Лассо або чому він працює так добре. Мені цікаво, на що йдеться в цьому твердженні. Очевидно, я розумію, чому Лассо працює технічно, запобігаючи надмірному оснащенню за рахунок …

1
Реплікація результатів для лінійної регресії glmnet за допомогою загального оптимізатора
Як зазначено в заголовку, я намагаюся повторити результати лінійки glmnet, використовуючи оптимізатор LBFGS з бібліотеки lbfgs. Цей оптимізатор дозволяє нам додати термін регулятора L1, не турбуючись про диференційованість, доти, поки наша об'єктивна функція (без терміна регулятора L1) опукла. minβ∈Rp12n∥β0+Xβ−y∥22+αλ∥β∥1+12(1−α)λ∥β∥22minβ∈Rp12n‖β0+Xβ−y‖22+αλ‖β‖1+12(1−α)λ‖β‖22\min_{\beta \in \mathbb{R}^p} \frac{1}{2n}\Vert \beta_0 + X\beta - y \Vert_2^2 + \alpha …

4
Регуляризація спорідненості для стохастичних матриць
Загальновідомо (наприклад, в області стиснення зондування), що норма є "спорідненою", в тому сенсі, що якщо ми мінімізуємо функціональний (для нерухомої матриці і вектора ) для досить великих \ lambda> 0 , ми, мабуть, для багатьох варіантів A , \ vec {b} і \ lambda буде мати багато точно нульових записів …

2
Регуляризація
Існує багато методів проведення регуляризації - наприклад, , L 1 і L 2, заснована на нормуванні регуляризації. На думку Friedman Hastie & Tibsharani , найкращий регуляризатор залежить від проблеми: а саме від природи справжньої цільової функції, конкретної основи, що використовується, співвідношення сигнал-шум та розміру вибірки.L0L0L_0L1L1L_1L2L2L_2 Чи є емпіричні дослідження, що …

4
Регуляризація: чому помножити на 1 / 2м?
В неділю 3 - конспектів в класі Coursera Machine Learning Ендрю Нг , термін додається до функції вартості реалізації впорядкування: J+(θ)=J(θ)+λ2m∑j=1nθ2jJ+(θ)=J(θ)+λ2m∑j=1nθj2J^+(\theta) = J(\theta) + \frac{\lambda}{2m} \sum_{j=1}^n \theta_j^2 У конспектах лекції сказано: Ми також могли б регулювати всі наші тета-параметри в одному підсумку: м янθ 12 м [∑i = 1м(годθ(х( i …

1
RNN з регуляризацією L2 припиняє навчання
Я використовую двонаправлений RNN для виявлення події незбалансованого виникнення. Позитивний клас у 100 разів рідше, ніж негативний. Хоча не використовую регуляризацію, я можу отримати 100% точність на наборі поїздів і 30% на комплект перевірки. Я включаю регуляризацію l2, і результат - лише 30% точність на поїзді, а не довше навчання …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.