Легке пояснення "чисельної стійкості інверсії матриці" в регресії хребта та його ролі у зниженні надлишків


10

Я розумію, що ми можемо використовувати регуляризацію в регресії як мінімум квадратів

w=argminw[(yXw)T(yXw)+λw2]

і що ця проблема має рішення закритої форми як:

w^=(XTX+λI)1XTy.

Ми бачимо, що у другому рівнянні регуляризація просто додає λ до діагоналі XTX , що робиться для поліпшення чисельної стійкості інверсії матриці.

Моє теперішнє «сире» розуміння чисельної стійкості полягає в тому, що якщо функція стане «чисельнішою», то на її вихід буде менш впливати шум на її входах. У мене виникають труднощі, пов'язані з цією концепцією покращеної чисельної стійкості до більш широкого уявлення про те, як вона уникає / зменшує проблему надмірного оснащення.

Я спробував переглянути Вікіпедію та кілька інших веб-сайтів університету, але вони не заглиблюються в пояснення, чому це так.


Регрес хребта приходить на думку. посилання
EngrStudent

1
Ви можете знайти деяке значення в дискусії (здебільшого описової / інтуїтивної, а не алгебраїчної) у розділі Чому оцінка гребня стає кращою за OLS, додаючи константу до діагоналі?
Glen_b -Встановіть Моніку

Відповіді:


2

У лінійній моделі , якщо припустити некорельовані помилки із середнім нулем та мають повний ранг стовпця, оцінювач найменших квадратів є неупередженим оцінювачем параметра . Однак цей оцінювач може мати великі дисперсії. Наприклад, коли два стовпці сильно корелюються.Y=Xβ+ϵX(XTX)1XTYβX

Параметр штрафу робить упередженим оцінювачем , але він зменшує його дисперсію. Також - це заднє очікування в байєсівській регресії з до . У цьому сенсі ми включаємо в аналіз деяку інформацію, яка каже, що компоненти не повинні бути занадто далеко від нуля. Знову це призводить нас до упередженої точкової оцінки але зменшує дисперсію оцінки.λw^βw^βN(0,1λI)βββ

У налаштуваннях, де високими розмірами, скажімо, , найменший розмір квадратів повністю відповідатиме даним. Незважаючи на об'єктивну оцінку, ця оцінка буде дуже чутлива до коливань даних, оскільки в таких високих розмірах буде багато точок з високим важелем. У таких ситуаціях знак деяких компонентів може бути визначений одним спостереженням. Термін штрафу призводить до зменшення цих оцінок до нуля, що може знизити МСЕ оцінювача за рахунок зменшення дисперсії.XNpβ^

Редагувати: У своїй початковій відповіді я надіслав посилання на відповідний документ, і я поспішив її. Ось це: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
У його теперішній формі це справді більше коментарів; ти думаєш, що ти можеш це обґрунтувати на предметну відповідь?
Срібна рибка

Дно п. 5 праворуч / верх п. 6 ліворуч, що стосується малюнка 3, містить ключову дискусію щодо питання, заданого в цій публікації.
Марк Л. Стоун

Це все правильно, але я не впевнений, що це відповідає на питання ОП.
амеба

Амеба, дивіться мій коментар вище, в якому йдеться про посилання, яке згодом було відредаговано з відповіді Еріка Міттмана, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .
Марк Л. Стоун

1

Чисельна стабільність та надмірне оснащення є певним чином пов'язаними, але різними питаннями.

Класична проблема OLS:

Розглянемо класичну проблему з найменшими квадратами:

minimize(over b)(yXb)T(yXb)

Рішення - класичний . Ідея полягає в тому, що за законом великих чисел:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

Отже, оцінка OLS також переходить до . (У лінійній алгебрі це лінійна проекція випадкової величини на лінійний проміжок випадкових величин .)b^E[xx]1E[xy]yx1,x2,,xk

Проблеми?

Механічно, що може піти не так? Які можливі проблеми?

  1. Для невеликих зразків наші вибіркові оцінки та можуть бути поганими.E[xx]E[xy]
  2. Якщо стовпці є колінеарними (або через властиву колінеарності чи невеликого розміру вибірки), проблема матиме континуум рішення! Рішення може бути не унікальним. X
    • Це відбувається, якщо є дефіцитним.E[xx]
    • Це також відбувається, якщо має дефіцит за рангом через невеликий розмір вибірки відносно кількості випусків регресора.XX

Проблема (1) може призвести до перевиконання, оскільки оцінка починає відображати зразки у вибірці, яких немає в базовій популяції. Оцінка може відображати шаблони в та , які насправді не існують у іb^1nXX1nXyE[xx]E[xy]

Проблема (2) означає, що рішення не є унікальним. Уявіть, що ми намагаємося оцінити ціну індивідуального взуття, але пари взуття завжди продаються разом. Це невдала проблема, але скажімо, ми все одно це робимо. Ми можемо вважати, що ціна на ліве взуття плюс ціна на праве взуття дорівнює 50 доларам , але як можна придумати індивідуальні ціни? Чи встановлення цін на ліве взуття а ціна на праве взуття гаразд? Як ми можемо вибрати з усіх можливостей?pl=45pr=5

Введення штрафу :L2

Тепер розглянемо:

minimize(over b)(yXb)T(yXb)+λb2

Це може допомогти нам з обома типами проблем. штраф штовхає нашу оцінку до нуля. Це ефективно функціонує як байєсівський раніше, ніж розподіл за значеннями коефіцієнта зосереджено навколо . Це допомагає при надмірному оснащенні. Наша оцінка буде відображати як дані, так і наші початкові переконання, що майже до нуля.L2b0b

L2 регуляризація також завжди допомагає нам знайти унікальне рішення проблемних проблем. Якщо нам відомо, що ціна лівого і правого взуття становить до , рішенням, яке також мінімізує норму є вибір .$50L2pl=pr=25

Це магія? Ні. Регуляризація - це не те саме, що додавати дані, які насправді дозволять нам відповісти на питання. регуляризація в деякому сенсі сприймає думку про те, що якщо вам бракує даних, вибирайте оцінки, ближчі до .L20

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.