Чому в лінійній регресії регуляризація також покарає значення параметрів?


9

В даний час я вивчаю регресію хребта, і я трохи розгубився щодо покарання більш складних моделей (або визначення більш складної моделі).

Як я розумію, складність моделі не обов'язково співвідноситься з порядком поліномів. Тому:

2+3+4х2+5х3+6х4
є більш складною моделлю, ніж:
5х5

І я знаю, що суть регуляризації полягає в тому, щоб тримати складність моделі низькою, тому скажімо, наприклад, у нас є поліном 5-го порядку

f(х;ш)=ш0+ш1х+ш2х2+ш3х3+ш4х4+ш5х5

Чим більше параметрів на 0, тим краще.

Але я не розумію, якщо це був поліном того самого порядку, чому менші значення параметрів штрафуються менше? То чому б:

2+5х+х3
- менш складна модель, ніж

433+342х+323х3
вони обидва того самого полінома, а значення параметрів просто залежать від даних.

Дякую!

Відповіді:


10

значення параметрів просто залежать від даних

Це ключова частина вашого питання. Тут ви плутаєтесь.

Так, значення параметрів залежать від даних. Але дані фіксуються, коли ми підходимо до моделі. Іншими словами, ми підходимо до моделі, що залежить від спостережень . Немає сенсу порівнювати складність різних моделей, які були пристосовані до різних наборів даних .

І в контексті фіксованого набору даних, моделі

2+5х+х3

дійсно ближче до найпростішої можливої ​​моделі, а саме до плоскої нульової моделі, ніж

433+342х+323х3,

і це справедливо незалежно від масштабу ваших спостережень.

До речі, перехоплення (2 і 433у вашому прикладі) часто не карається, наприклад, у більшості рецептів Лассо, тому що ми, як правило, хороші, дозволяючи вільно змінюватися, щоб зафіксувати загальне середнє значення спостережень. Іншими словами, ми зменшуємо модель до середнього рівня спостережень, а не до повної нульової моделі (де нуль часто буде довільним). У цьому сенсі квартира2 і квартира 433 модель вважалася б однаково складною.


1
Чим менші коефіцієнти величини далі від плоского нуля, ніж більш високі коефіцієнти? Це помилка друку, чи я не розумію, чому модель, що віддаляється від постійної, не штрафується настільки, наскільки модель ближче до постійної?
РМ

Вибачте, це справді було помилково. Дозвольте мені редагувати. Дякуємо, що вказали на це!
Стефан Коласа
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.