Стандартизація та нормалізація для регресії Лассо / Рідж


11

Я знаю, що є загальноприйнятою практикою стандартизувати особливості регресії хребта та ласо, однак, чи було б колись практичніше нормалізувати функції за шкалою (0,1) як альтернативу стандартизації z-балів для цих методів регресії?

Відповіді:


4

Якщо застосувати нормалізацію (стиснути в [0,1]), ви будете мати міру відносної змінної важливості, але це змінить масштаб ваших змінних і ви втратите всю інтерпретаційність моделі. Перевага стандартизації полягає в тому, що ви все ще можете інтерпретувати модель так само, як і при нерегулярній регресії OLS (про це вже було сказано тут ).


3
Регульована модель діє дуже по-різному з нормалізацією або без неї !! Зокрема, якщо ми не нормалізуємо функції, ми будемо мати різні штрафи за різні функції!
Haitao Du

1
Я спеціально говорив про тлумачення коефіцієнтів Лассо , а не про оцінку. Враховуючи, що оцінки зміниться, мені було б цікаво знати, як зміниться інтерпретація моделі.
Дігіо

1
Мені не здається, що питання, на яке ви посилаєтесь у своїй відповіді, підтримує те, що ви ставите. Чи можете ви зробити більш чітким у своєму початковому дописі, чому інтерпретація коефіцієнтів ols узгоджується з коефіцієнтами ласо лише тоді, коли функції стандартизовані? Дякую!
користувач795305

@Ben, ти неправильно зрозумів мою відповідь (можливо, моя провина). Відповідь я пов'язаний пояснює , як коефіцієнти моделі в ласо і в простій регресії (МНК або іншим чином ) інтерпретуються таким же чином - ні за яких обставин (стандартизованих чи ні). При нормалізації (у будь-якому типі чи параметричній регресії) ви втрачаєте початкову шкалу і не можете інтерпретувати коефіцієнти без зворотної трансформації. За допомогою стандартизації ви інтерпретуєте модель у звичайному порядку.
Дігіо

@Digio: чому нормалізація зробить коефіцієнти менш зрозумілими, ніж будь-яка інша шкала? Чи не є нормалізація та стандартизація однаковими перетвореннями, але чисельник, який вони використовують? Обидва вимагають зворотного перетворення однаковим чином для інтерпретації коефіцієнтів як dV / dx, з x в одиницях не масштабованих ознак. Так, коефіцієнти стандартизованих ознак також можуть бути безпосередньо інтерпретовані як dV / dz, z є z-балом кожної ознаки, і це тлумачення неможливо при нормалізації. Але чи означає це, що коефіцієнти нормованих ознак втрачають будь-яку інтерпретацію?
OldSchool

0

Нормалізація дуже важлива для методів з регуляризацією. Це тому, що масштаб змінних впливає на те, наскільки регуляризація буде застосовуватися до конкретної змінної.

Наприклад, припустимо, що одна змінна у дуже великому масштабі, скажімо, порядок мільйонів, а інша - від 0 до 1. Тоді, ми можемо вважати, що регуляризація матиме незначний вплив на першу змінну.

Як і ми робимо нормалізацію, нормалізувати її до 0 до 1 або стандартизувати функції не має великого значення.


1
Ця відповідь констатує очевидне. Під "нормалізацією" тут мається на увазі витіснення всіх значень у [0,1], це не просто інше слово для стандартизації. Питання стосується впливу нормалізації в [0,1] проти стандартизації ~ N (0,1) на модельні коефіцієнти.
Дігіо

Що означає нормалізувати до [0,1]? Є багато способів цього досягти. Яка саме ваша рекомендація щодо санкціонованої регресії?
Cagdas Ozgenc

1
Оскільки в запитанні йдеться про "нормалізацію ознак за шкалою (0,1)", хоча, можливо, масштабування функції є кращим терміном, це загальна методика отримання оцінок коефіцієнтів, що виражають відносну змінну важливість (подібно до показника чистоти РФ). Так, існує багато способів цього досягти, і це не щось специфічне для санкціонованої регресії, але це питання стосується впливу масштабування функції (а не стандартизації) на Лассо.
Дігіо

що ви маєте на увазі під "нормалізувати його до 0 до 1 або стандартизувати функції не має великого значення"? У якому сенсі це не має великого значення? Чи можете ви надати якусь інтуїцію чи посилання на цю претензію?
користувач795305
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.