Запитання з тегом «regularization»

Включення додаткових обмежень (як правило, штраф за складність) у процесі встановлення моделі. Використовується для запобігання перевитрат / підвищення точності прогнозування.

1
Необхідність центрування та стандартизації даних при регресії
Розглянемо лінійну регресію з деякою регуляризацією: Eg Знайдіть що мінімізуєxxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Зазвичай стовпці А стандартизовані, щоб мати нульове середнє і одиничну норму, а - по центру, щоб мати нульове середнє. Хочу переконатися, чи правильно я розумію причину стандартизації та центрування.bbb Створюючи засоби стовпців AAA і bbb нульових, нам більше …

1
Який багаторазовий метод порівняння використовувати для lmer-моделі: lsmeans або glht?
Я аналізую набір даних, використовуючи модель змішаних ефектів з одним фіксованим ефектом (умовою) та двома випадковими ефектами (учасник, обумовлений в рамках проекту та пари). Модель була згенерована з lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Далі я провів перевірку коефіцієнта ймовірності цієї моделі проти моделі без фіксованого ефекту (умови) і маю суттєву різницю. У моєму …

2
Чому втрата норми L2 має унікальне рішення, а втрата норми L1, можливо, має декілька рішень?
http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ Якщо ви подивитеся на верхню частину цього повідомлення, письменник зазначає, що норма L2 має унікальне рішення, а норма L1, можливо, має багато рішень. Я розумію це з точки зору регуляризації, але не з точки зору використання норми L1 або норми L2 у функції втрат. Якщо ви подивитеся на графіки …

2
Чому усадка насправді працює, що так особливого в 0?
На цьому сайті вже розміщено повідомлення, що говорить про те саме: Чому працює усадка? Але, хоча відповіді популярні, я не вірю, що суть питання справді вирішена. Цілком зрозуміло, що введення деякої упередженості в оцінку призводить до зменшення дисперсії та може покращити якість оцінки. Однак: 1) Чому шкода, заподіяна введенням зміщення, …

1
Регуляризація для моделей ARIMA
Я знаю про регуляризацію типу LASSO, хребет та еластичну сітку в моделях лінійної регресії. Питання: Чи можна застосувати цей (або подібний) вид пеналізованої оцінки до моделювання ARIMA (з не порожньою частиною МА)? pmaxpмахp_{max}qmaxqмахq_{max}p⩽pmaxp⩽pмахp \leqslant p_{max}q⩽qmaxq⩽qмахq \leqslant q_{max} наприклад, мінімізуючи AIC або AICc . Але чи можна замість цього використовувати регуляризацію? …

4
Доказ рівнозначних формул регресії хребта
Я читав найпопулярніші книги в статистичному навчанні 1- Елементи статистичного навчання. 2- Вступ до статистичного навчання . Обидва згадують, що регресія хребта має дві формули, рівнозначні. Чи є зрозумілий математичний доказ цього результату? Я також пройшов Cross Valified , але я не можу знайти певного доказу там. Крім того, буде …

3
Регуляризація та масштабування функцій в онлайн-навчанні?
Скажімо, у мене є класифікатор логістичної регресії. У звичайному серійному навчанні я мав би термін регуляризатора, щоб запобігти надягання і зберегти ваги невеликими. Я б також нормалізував і масштабував свої функції. У режимі онлайн-навчання я отримую безперервний потік даних. Я оновлюю градієнтне зменшення з кожним прикладом, а потім відкидаю його. …

1
Яка найменша яка дає 0 компонент у ласо?
Визначте оцінку ласо де i ^ {th} рядок x_i \ в \ mathbb {R} ^ p проектної матриці X \ in \ mathbb {R} ^ {n \ times p} - вектор коваріатів для пояснення стохастичної відповіді y_i (для i = 1, \ крапки n ).β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} …


1
Регульована байєсівська логістична регресія в JAGS
Існує декілька математично важких паперів, які описують байєсівський Лассо, але я хочу перевірити правильний код JAGS, який я можу використовувати. Чи може хтось розмістити зразок коду BUGS / JAGS, який реалізує регульовану логістичну регресію? Будь-яка схема (L1, L2, Elasticnet) була б чудовою, але віддає перевагу Лассо. Мені також цікаво, чи …


4
Норми
норма є унікальною (принаймні частково) , тому що знаходиться на кордоні між неопуклі і опуклі. норма є «найбільш розрідженим» опукла норма (правда?). p = 1 L 1L1L1L_1p=1p=1p=1L1L1L_1 Я розумію, що норма Евкліда має коріння в геометрії, і вона має чітку інтерпретацію, коли розміри мають однакові одиниці. Але я не розумію, …

1
Рішення закритої форми задачі Лассо, коли матриця даних є діагональною
\newcommand{\diag}{\operatorname{diag}} ім'я У нас проблема: minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right), з припущенням, що: ∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). Чи є в цьому випадку рішення закритої форми? Я маю це: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right), і тому я думаю, що відповідь: : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\}, для yj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2} , але я не впевнений.

1
Запобігання надмірному набору LSTM на невеликих наборах даних
Я моделюю 15000 твітів для прогнозування настроїв, використовуючи одношаровий LSTM з 128 прихованими одиницями, використовуючи Word2vec-подібне представлення з 80 вимірами. Я отримую точність спуску (38% з випадковим = 20%) після 1 епохи. Якщо більше тренувань, точність валідації починає знижуватися, коли точність тренування починає підніматися - явна ознака надягання. Тому я …

1
Струсово-дисперсійне розкладання
У розділі 3.2 Розпізнавання шаблону Єпископа та машинного навчання він розглядає декомпозицію дисперсійної дисперсії, заявляючи, що для функції збитку в квадраті очікувана втрата може бути розкладена на термін зсуву в квадрат (який описує, наскільки середні прогнози від істинного модель), термін дисперсії (який описує поширення прогнозів навколо середнього) та термін шуму …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.