Чому в лінійній регресії регуляризація також покарає значення параметрів?

В даний час я вивчаю регресію хребта, і я трохи розгубився щодо покарання більш складних моделей (або визначення більш складної моделі).

Як я розумію, складність моделі не обов'язково співвідноситься з порядком поліномів. Тому:

2 + 3 + 4 х^{2} + 5 х^{3} + 6 х^{4}

$2 + 3+ 4x^2 + 5x^3 + 6x^4$ є більш складною моделлю, ніж:

5 х^{5}

$5x^5$

І я знаю, що суть регуляризації полягає в тому, щоб тримати складність моделі низькою, тому скажімо, наприклад, у нас є поліном 5-го порядку

f (х; ш) = ш_{0} + ш_{1} х + ш_{2} х^{2} + ш_{3} х^{3} + ш_{4} х^{4} + ш_{5} х^{5}

$f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5$

Чим більше параметрів на 0, тим краще.

Але я не розумію, якщо це був поліном того самого порядку, чому менші значення параметрів штрафуються менше? То чому б:

2 + 5 х + х^{3}

$2 + 5x + x^3$ - менш складна модель, ніж

433 + 342 х + 323 х^{3}

$433+ 342x + 323x^3$ вони обидва того самого полінома, а значення параметрів просто залежать від даних.

Дякую!

regression regularization hyperparameter

— Physco111
джерело

значення параметрів просто залежать від даних

Це ключова частина вашого питання. Тут ви плутаєтесь.

Так, значення параметрів залежать від даних. Але дані фіксуються, коли ми підходимо до моделі. Іншими словами, ми підходимо до моделі, що залежить від спостережень . Немає сенсу порівнювати складність різних моделей, які були пристосовані до різних наборів даних .

І в контексті фіксованого набору даних, моделі

2 + 5 х + х^{3}

$2 + 5x + x^3$

дійсно ближче до найпростішої можливої моделі, а саме до плоскої нульової моделі, ніж

433 + 342 х + 323 х^{3},

$433+ 342x + 323x^3,$

і це справедливо незалежно від масштабу ваших спостережень.

До речі, перехоплення ( $2$ і $433$ у вашому прикладі) часто не карається, наприклад, у більшості рецептів Лассо, тому що ми, як правило, хороші, дозволяючи вільно змінюватися, щоб зафіксувати загальне середнє значення спостережень. Іншими словами, ми зменшуємо модель до середнього рівня спостережень, а не до повної нульової моделі (де нуль часто буде довільним). У цьому сенсі квартира $2$ і квартира $433$ модель вважалася б однаково складною.

— Стефан Коласа
джерело

Чим менші коефіцієнти величини далі від плоского нуля, ніж більш високі коефіцієнти? Це помилка друку, чи я не розумію, чому модель, що віддаляється від постійної, не штрафується настільки, наскільки модель ближче до постійної?

— РМ

Вибачте, це справді було помилково. Дозвольте мені редагувати. Дякуємо, що вказали на це!

— Стефан Коласа