Запитання з тегом «regularization»

Включення додаткових обмежень (як правило, штраф за складність) у процесі встановлення моделі. Використовується для запобігання перевитрат / підвищення точності прогнозування.

2
Межа оцінювача регресії хребта "одинична дисперсія" при
Розглянемо регресію хребта з додатковим обмеженням, що вимагає, щоб має одиницю суми квадратів (еквівалентно одиниці дисперсії); при необхідності можна припустити, що має одиничну суму квадратів:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=arg⁡min{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Яка межа β^∗λβ^λ∗\hat{\boldsymbol\beta}_\lambda^* коли λ→∞λ→∞\lambda\to\infty ? Ось кілька тверджень, які …

2
охоплення довірчих інтервалів з регульованими оцінками
Припустимо, я намагаюся оцінити велику кількість параметрів за деякими великомірними даними, використовуючи якісь регульовані оцінки. Регуляризатор вносить певні упередження до оцінок, але це все ще може бути гарним компромісом, оскільки зменшення дисперсії повинно перевищувати його. Проблема виникає, коли я хочу оцінити довірчі інтервали (наприклад, використовуючи наближення Лапласа або завантажуючи). Зокрема, …

1
Доведення коефіцієнтів усадки за допомогою регресії хребта за допомогою "спектрального розкладання"
Я зрозумів, як регресія хребта зменшує коефіцієнти до нуля геометрично. Більше того, я знаю, як довести це в спеціальній "Ортонормічній справі", але мене бентежить, як це працює в загальному випадку за допомогою "Спектральної декомпозиції".

5
Чи потрібно ще робити вибір функції під час використання алгоритмів регуляризації?
У мене є одне питання щодо необхідності використання методів вибору функцій (значення випадкових лісів, значення важливості функції або методи вибору функцій Univariate тощо) перед запуском алгоритму статистичного навчання. Ми знаємо, щоб уникнути перевитрати, ми можемо ввести штраф за регуляризацію вагових векторів. Отже, якщо я хочу зробити лінійну регресію, то я …

1
libsvm попередження та перехресне підтвердження "досягнення максимальної кількості ітерацій"
Я використовую libsvm в режимі C-SVC з поліномним ядром ступеня 2, і мені потрібно тренувати кілька SVM. Кожен навчальний набір має 10 функцій та 5000 векторів. Під час тренінгу я отримую це попередження для більшості СВМ, які я треную: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 …

5
Уникайте перевищення в регресії: альтернативи регуляризації
Регуляризація в регресії (лінійна, логістична ...) є найпопулярнішим способом зменшення перенапруги. Коли мета - точність прогнозування (не пояснення), чи існують якісь альтернативи регуляризації, особливо підходящі для великих наборів даних (ми / мільярди спостережень та мільйони функцій)?

2
Чи може корисна регуляризація, якщо нас цікавить лише моделювання, а не прогнозування?
Чи може регуляризація бути корисною, якщо нас цікавить лише оцінка (та інтерпретація) параметрів моделі, а не прогнозування чи прогнозування? Я бачу, як регуляризація / перехресне підтвердження є надзвичайно корисним, якщо ваша мета - зробити хороші прогнози щодо нових даних. Але що робити, якщо ви займаєтеся традиційною економікою, і все, що …

3
Зв'язок між регресією хребта та регресією PCA
Я пам’ятаю, що десь в Інтернеті прочитав зв’язок між регресією хребта (з регуляризацією) та регресією PCA: використовуючи регресію з гіперпараметром , якщо , то регресія еквівалентна видаленню ПК змінна з найменшим власним значенням.ℓ2ℓ2\ell_2ℓ2ℓ2\ell_2λλ\lambdaλ → 0λ→0\lambda \to 0 Чому це правда? Чи має це щось спільне з процедурою оптимізації? Наївно, я …

1
Чи існує байєсова інтерпретація лінійної регресії з одночасною регуляризацією L1 та L2 (також пружна сітка)?
Добре відомо, що лінійна регресія з покаранням еквівалентна знаходженню оцінки ПДЧ, заданої Гауссовим попереднім коефіцієнтом. Аналогічно, використання штрафу l 1 еквівалентно використанню розподілу Лапласа як попереднього.л2л2l^2л1л1l^1 Не рідкість використання деякої зваженої комбінації регуляризації та l 2 . Чи можемо ми сказати, що це еквівалентно деякому попередньому розподілу коефіцієнтів (інтуїтивно, здається, …


4
Що означає "ступінь свободи" в нейронних мережах?
У книзі Бішопа «Класифікація візерунків та машинне навчання» він описує техніку регуляризації в контексті нейронних мереж. Однак я не розумію абзац, що описує, що під час тренувального процесу кількість ступенів свободи збільшується разом зі складністю моделі. Відповідна цитата: Альтернативою регуляризації як способу контролю ефективної складності мережі є процедура раннього припинення. …

2
Частотність і пріори
У коментарі до цього повідомлення Робі Маккіліам говорить : Слід зазначити, що, з точки зору відвідувачів, немає причин, щоб ви не могли включити попередні знання до моделі. У цьому сенсі частофілістський погляд простіший, у вас є лише модель та деякі дані. Немає необхідності відокремлювати попередню інформацію від моделі Також тут …

2
Чому Lasso або ElasticNet працюють краще, ніж Ridge, коли функції співвідносяться
У мене є набір з 150 функцій, і багато з них сильно співвідносяться між собою. Моя мета - передбачити значення дискретної змінної, діапазон якої становить 1-8 . Розмір мого зразка - 550 , і я використовую 10-кратну перехресну перевірку. AFAIK серед методів регуляризації (Lasso, ElasticNet і Ridge), Ridge більш жорсткий …

1
Чому "розслаблене ласо" відрізняється від стандартного ласо?
Якщо ми почнемо з набору даних , застосуємо до нього Лассо і отримаємо рішення , ми можемо знову застосувати Лассо до набору даних , де - безліч не- нульові індекси , щоб отримати рішення, , що називається "розслабленим LASSO" рішенням (виправте мене, якщо я помиляюся!). Рішення повинно задовольняти умовам Каруша …

1
Який типовий діапазон можливих значень параметра усадки в пенізованій регресії?
У регресії ласо або хребта потрібно вказати параметр усадки, який часто називають або . Це значення часто вибирається за допомогою перехресної перевірки, перевіряючи купу різних значень на навчальних даних і бачачи, що дає найкращі результати, наприклад на тестових даних. Який діапазон значень слід перевірити? Це ?λλ\lambdaαα\alphaR2R2R^2(0,1)(0,1)(0,1)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.