Чи справді необхідна стандартизація перед Лассо?


28

Я прочитав три основні причини стандартизації змінних перед чимось таким, як Lassoрегресія:

1) Інтерпретабельність коефіцієнтів.

2) Можливість ранжувати значення коефіцієнта за відносною величиною оцінок коефіцієнта після усадки.

3) Не потрібно перехоплення.

Але мені цікаво найголовніше. Чи є у нас підстави думати, що стандартизація поліпшила б узагальнення вибірки моделі? Також мені байдуже, чи не потрібно мені перехоплення в моїй моделі; додавання одного не шкодить мені.


1
Уточнення: начебто ви хочете запитати: "За умови, що стандартизація є необов’язковою (один із особливих випадків, коли результати не перекошені різними величинами), то чи покращиться стандартизація поза узором узагальнення?" Це правильно?
Drew75

@ Drew75 Я вважаю за краще розбиття випадків, наприклад, чи допомагає це, коли результати "перекошені різною величиною", чи допомагає це, коли результати не перекошені тощо? Краща відповідь стосуватиметься різних ситуацій.
Jase

1
Тоді ваше питання не стосується Лассо (адже загалом стандартизація необхідна перед Лассо). Це більш загальне. Можливо, змініть заголовок і перше речення питання.
Drew75

@Drew: Це скоріше запитання: чому це потрібно (коли це не так?)? Що означає перекосити результати (порівняно з якими?)? Я вважаю, що питання є нормальним.
Scortchi

@ Drew75 Моє питання про Лассо.
Jase

Відповіді:


21

Регресія Лассо обмежує розмір коефіцієнтів, пов'язаних з кожною змінною. Однак це значення буде залежати від величини кожної змінної. Тому необхідно центрувати та зменшувати або стандартизувати змінні.

Результат центрування змінних означає, що більше немає перехоплення. До речі, це стосується регресії хребта, до речі.

Ще одне хороше пояснення - це повідомлення: Необхідність центрування та стандартизації даних в регресії


Це або не відповідь, або вкрай непряма відповідь на моє запитання. Поясніть, будь ласка, зв’язок між вашою відповіддю та вибірковим узагальненням (яке було питання).
Jase

10
@Jase: Це вирішує основну причину стандартизації, яку ви пропустили зі свого списку: якщо ви хочете скинути прогнози з малими коефіцієнтами (або в іншому випадку використовувати штрафний термін залежно від величини коефіцієнта), вам потрібно вирішити, що вважається "малим ". Хоча стандартизація не є обов'язковою перед ЛАССО або іншими методами санкціонованої регресії, рідко трапляється, що для цієї мети корисні оригінальні шкали, за якими вимірюються прогнози.
Scortchi

3
І справа в центрі полягає в тому, що зазвичай не хочеться скидати або стискати перехоплення.
Scortchi

2
@Jase: Так, це я маю на увазі (якщо припустити , що параметр усадки ). І від того, чи визначається коефіцієнт серед найдрібніших (однак ви обираєте \ lambda $), залежить від того, чи вимірюється він у кілометрах, мікрометрах, ні. стандартні відхилення від його середнього значення в вибірці або якійсь іншій одиниці. З точки зору Байєса, ви ставите слабко інформативні пріорі над значеннями справжнього коефіцієнта, а не неінформативними. λ
Scortchi

2
В цілому, наскільки ви зменшите загальну кількість, це вплине на узагальнення до випадкових витриманих зразків; дещо довільне рішення про те, наскільки скоротити кожного прогноктора відносно інших, вплине на узагальнення нових вибірок з подібних сукупностей, де коефіцієнти дещо різні, де розподіл прогнозів не обов'язково такий, як у навчальному наборі , & c. (Звичайно, ваше запитання заслуговує на більш продуману відповідь.)
Scortchi - Відновіть Моніку

2

Параметр штрафу L1 - це підсумок абсолютних бета-термінів. Якщо всі змінні мають різну розмірність, то цей термін насправді не є аддитивним, навіть якщо математично немає жодної помилки.

Однак я не бачу фіктивних / категоричних змінних, які страждають від цього питання, і думаю, що їх не потрібно стандартизувати. стандартизація їх може просто знизити інтерпретацію змінних

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.