Хребет, ласо і еластична сітка


33

Як порівнюють методи регуляризації конькових, лазерних та еластичних мереж? Які їхні переваги та недоліки? Буде також вдячний будь-який хороший технічний документ або конспекти лекцій.

Відповіді:


39

У книзі «Елементи статистичного навчання» , Хасті та ін. забезпечують дуже глибоке і ретельне порівняння цих методів усадки. Книга доступна в Інтернеті ( pdf ). Порівняння робиться в розділі 3.4.3, сторінка 69.

Основна відмінність Лассо від Ридж - термін покарання, який вони використовують. Рідж використовує штрафний термін який обмежує розмір коефіцієнта. Лассо використовує штраф який накладає рідкість серед коефіцієнтів і, таким чином, робить придатну модель більш зрозумілою. Elasticnet запроваджується як компроміс між цими двома методами і має штраф, який є сумішшю та норм.L2L1L1L2


3
Це чудовий довідник.
bdeonovic

4
також тому, що автори є винахідниками цих прийомів!
Бакабург

1
Дякую за те, що ви дали нам довідку про цю прекрасну книгу
Крістіна

1
Настійно рекомендую також розділ 18.4, сторінки 661-668. Забезпечує додаткову інформацію щодо ласової та еластичної сітки.
Катя Хендлер

1
Посилання на книгу померло станом на 14 жовтня 2016 р.
Ashe

22

Підводячи підсумок, ось декілька помітних відмінностей між Лассо, Ріджем та Еластичною сіткою:

  1. Лассо робить рідкісний вибір , тоді як Рідж - ні.
  2. Коли у вас сильно корельовані змінні , регрес Рейда зменшує два коефіцієнти один до одного. Лассо дещо байдужий і, як правило, перебирає один над одним. Залежно від контексту, не відомо, яка змінна буде обрана. Еластична сітка - це компроміс між цими двома, які намагаються одночасно зменшити і зробити рідкий вибір.
  3. Оцінювачі хребта байдужі до мультиплікативного масштабування даних. Тобто, якщо обидва змінні X і Y помножені на константи, коефіцієнти придатності не змінюються для заданого параметра . Однак для Лассо придатність не залежить від масштабування. Фактично, параметр повинен бути збільшений множником, щоб отримати той самий результат. Він складніший за еластичну сітку.λλ
  4. Рідж карає найбільших більше,β ніж карає менших (так як вони ставляться у квадратний строк). Лассо штрафує їх більш рівномірно. Це може бути або не бути важливим. У проблемі прогнозування з потужним прогнозувачем ефективність прогноктора знижується на хребет порівняно з Лассо.

@ баланс для другого пункту, який ви зробили, що означає "хто не знає, яка змінна потрапляє"? Ви мали на увазі, що LASSO байдужий, тож він випадково вибирає один, щоб ми не знали, який із них найкращий?
meTchaikovsky

4

Я настійно рекомендую вам ознайомитись із Вступом до статистичної книги навчання (Tibshirani et al., 2013).

Причиною цього є те, що " Елементи статистичної книги" призначені для осіб, які пройшли підвищення кваліфікації з математичних наук. У передмові до ISL автори пишуть:

Введення в статистичних Вивчення виникло з усвідомленої необхідності в більш широку і менш технічної обробки цих тем. [...]

Вступ до статистичного навчання підходить для випускників магістрів або студентів магістрів зі статистики або суміжних кількісних галузей або для осіб з інших дисциплін, які бажають використовувати статистичні засоби навчання для аналізу своїх даних.


1
Чи можете ви детальніше пояснити, чому ви вважаєте, що ця посилання є корисною?
JM не є статистиком

1
Добре цитувати книгу, але, будь ласка, позначте її як цитату, а не як власний текст. Інакше це плагіат. Я відредагував це зараз для вас.
амеба каже, що повернеться до Моніки

1

Наведені вище відповіді дуже чіткі та інформативні. Я хотів би додати ще одну незначну точку з точки зору статистики. Візьмемо для прикладу регресію хребта. Це розширення порядкової найменшої квадратної регресії для вирішення проблем мультиколінеарності, коли існує багато корельованих особливостей. Якщо лінійна регресія є

Y=Xb+e

Нормальне рішення рівняння для множинної лінійної регресії

b=inv(X.T*X)*X.T*Y

Нормальним рішенням рівняння для регресії хребта є

b=inv(X.T*X+k*I)*X.T*Y. 

Це упереджений оцінювач для b, і ми завжди можемо знайти штрафний термін k, який зробить середню квадратичну помилку регресії Рейда меншою, ніж регресія OLS.

Для LASSO та Elastic-Net ми не змогли знайти такого аналітичного рішення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.