Запитання з тегом «regularization»

Включення додаткових обмежень (як правило, штраф за складність) у процесі встановлення моделі. Використовується для запобігання перевитрат / підвищення точності прогнозування.



3
Чому Lasso забезпечує змінний вибір?
Я читав Елементи статистичного навчання , і хотів би знати, чому Лассо забезпечує змінний вибір, а регрес хребта не робить. Обидва способи мінімізують залишкову суму квадратів і обмежують можливі значення параметрів . Для Лассо обмеження є , тоді як для хребта це , для деякого .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt …

5
Що таке регуляризація простою англійською мовою?
На відміну від інших статей, я визнав, що цей текст у Вікіпедії для цієї теми не читається для людини, яка не має математики (як я). Я зрозумів основну думку, що ви віддаєте перевагу моделям з меншою кількістю правил. Що я не отримую - це як ви перейдете від набору правил …

6
Регуляризація L2 еквівалентна пріоритету Гаусса
Я продовжую читати це і інтуїтивно можу це бачити, але як можна перейти від регуляризації L2 до того, що аналітично це Гаос-пріор? Те саме говорить і те, що L1 еквівалентний попередньому Лапласану. Будь-які подальші посилання були б чудовими.

2
Чому працює усадка?
Для вирішення проблем вибору моделі ряд методів (LASSO, регресія хребта тощо) зменшить коефіцієнти змінних прогнозів до нуля. Я шукаю інтуїтивне пояснення, чому це покращує здатність прогнозування. Якщо справжній ефект змінної насправді був дуже великим, чому не зменшення параметра призводить до гіршого прогнозу?

7
Чому додається термін регуляризації * до функції витрат (замість множення тощо)?
Щоразу, коли використовується регуляризація, вона часто додається до функції витрат, наприклад у наступній функції витрат. Це має для мене інтуїтивний сенс, оскільки мінімізувати значення Функція витрат означає мінімізацію похибки (лівий член) і мінімізацію величин коефіцієнтів (правий член) одночасно (або принаймні врівноваження двох мінімізацій).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Моє запитання: …

6
Чи регрес хребта марний у великих розмірах ( )? Як OLS не може перевиконати?
Розглянемо стару добру проблему регресії з прогнокторами та розміром вибірки . Звичайна мудрість полягає в тому, що Оцінювач OLS буде перевершувати і, як правило, перевершує оцінку гребінної регресії:Для пошуку оптимального параметра регуляризації стандартно використовувати перехресну перевірку . Тут я використовую 10-кратне резюме. Оновлення уточнення: коли , під "Оцінювачем OLS" я …

6
Чому мультиколінеарність не перевіряється в сучасній статистиці / машинному навчанні
У традиційній статистиці, будуючи модель, ми перевіряємо наявність мультиколінеарності за допомогою таких методів, як оцінки коефіцієнта дисперсії дисперсії (VIF), але в машинному навчанні ми замість цього використовуємо регуляризацію для вибору особливостей і, здається, не перевіряємо, чи співвідносяться функції зовсім. Чому ми це робимо?

3
Методи регуляризації логістичної регресії
Регуляризація за допомогою таких методів, як Ridge, Lasso, ElasticNet, досить поширена для лінійної регресії. Мені хотілося знати наступне: чи застосовуються ці методи для логістичної регресії? Якщо так, чи є якісь відмінності в способі їх використання для логістичної регресії? Якщо ці методи не застосовуються, як можна регулювати логістичну регресію?

1
Нейронні мережі: імпульс зміни ваги та зменшення ваги
Момент використовується для зменшення коливань змін ваги протягом послідовних ітерацій:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), де - функція помилки, - вектор ваг, - швидкість навчання.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Зниження ваги карає зміни ваги:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Питання полягає в тому, чи є …

5
Як отримати рішення про регресію хребта?
У мене виникають деякі проблеми з виведенням рішення для регресії хребта. Я знаю рішення регресії без терміну регуляризації: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Але після додавання терміна L2 до функції витрат, яким чином стає рішеннямλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

3
Емпіричне обґрунтування одного стандартного правила помилки при використанні перехресної перевірки
Чи є якісь емпіричні дослідження, що виправдовують використання одного стандартного правила помилки на користь парсингу? Очевидно, це залежить від процесу генерації даних, але все, що аналізує великий масив наборів даних, було б дуже цікавим. "Одне стандартне правило помилки" застосовується під час вибору моделей за допомогою перехресної перевірки (або більш загально …

7
Чому регуляризація не вирішує голод щодо даних Deep Neural Nets?
Проблема, яку я часто зустрічався в контексті Нейронних мереж в цілому, і Глибоких нейронних мереж, зокрема, полягає в тому, що вони "голодні", тобто вони не працюють добре, якщо у нас не є великий набір даних з якою тренувати мережу. Я розумію, що це пов’язано з тим, що NNets, особливо Deep …

2
Якщо інтерес представляє лише прогнозування, навіщо використовувати ласо через хребет?
На сторінці 223 у вступі до статистичного навчання автори узагальнюють відмінності між регресією хребта та ласо. Вони наводять приклад (рис. 6.9) того, коли "ласо має тенденцію перевершити регресію хребта в плані зміщення, дисперсії та MSE". Я розумію, чому ласо може бути бажаним: це призводить до рідкісних рішень, оскільки він зменшує …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.