Чому оцінка гребня стає кращою за OLS, додаючи константу до діагоналі?


59

Я розумію, що оцінка регресії хребта - це яка мінімізує залишкову суму квадрата та штраф у розміріββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Однак я не повністю розумію значення того факту, що βridge відрізняється від βOLS лише додаванням невеликої константи до діагоналі XX . Дійсно,

βOLS=(XX)1Xy
  1. У моїй книзі зазначається, що це робить оцінку стабільнішою чисельно - чому?

  2. Чи пов'язана чисельна стійкість із усадкою до 0 оцінки гребеня, чи це просто збіг?

Відповіді:


76

У неописаній регресії часто можна отримати гребень * у просторі параметрів, де багато різних значень уздовж хребта все добре, або майже так само за критерієм найменших квадратів.

* (принаймні, це хребет у функції ймовірності - вони насправді є долинами $ за критерієм RSS, але я продовжую називати це хребтом, як це здається звичайним - або навіть, як вказує Алексіс З коментарів я можу назвати тальвега , будучи аналогом хребта долини)

За наявності хребта за критерієм найменших квадратів у просторі параметрів, штраф, який ви отримуєте за регресію хребта, позбавляється від цих хребтів, відсуваючи критерій вгору, коли параметри відводяться від початку:

введіть тут опис зображення
[ Ясніше зображення ]

У першому сюжеті велика зміна значень параметрів (уздовж хребта) призводить до незначної зміни критерію RSS. Це може спричинити числову нестабільність; він дуже чутливий до невеликих змін (наприклад, крихітна зміна значення даних, навіть усічення або помилка округлення). Оцінки параметрів майже ідеально співвідносяться. Ви можете отримати оцінки параметрів, які дуже великі.

На противагу цьому, піднімаючи те, що регресія хребта мінімізується (додаючи покарання ), коли параметри далекі від 0, невеликі зміни умов (наприклад, невелика помилка округлення або усікання) не можуть призвести до гігантських змін у результаті кошторис. Термін покарання призводить до зменшення до 0 (що призводить до деяких ухилів). Невелика кількість ухилів може придбати істотне поліпшення дисперсії (усунувши цей гребінь).L2

Невизначеність оцінок зменшується (стандартні помилки обернено пов'язані з другою похідною, яка збільшується на штраф).

Кореляція в оцінках параметрів знижується. Тепер ви не отримаєте оцінок параметрів, які мають велику величину, якщо RSS для малих параметрів не був би набагато гіршим.


4
Ця відповідь справді допомагає мені зрозуміти усадку та чисельну стабільність. Однак мені все ще незрозуміло, як "додавання невеликої константи до " досягає цих двох речей. XX
Гейзенберг

4
Додавання константи до діагоналі * те саме, що додати в RSS круговий параболоїд з центром у (результат, показаний вище - він «відтягується» від нуля - усуваючи гребінь). * (це не обов'язково мало, це залежить від того, як ви дивитесь на нього і скільки ви додали)0
Glen_b

6
Glen_b антонім "хребет" в англійській мові, який ви шукаєте (ця стежка / крива вздовж долини долини) - thalweg . Про що я тільки що дізнався два тижні тому і просто обожнюю. Це навіть не звучить як англійське слово! : D
Алексіс

5
@Alexis Це, без сумніву, було б корисним словом, тому дякую за це. Це, мабуть, не звучить англійською, тому що це німецьке слово (дійсно, тал - це те саме «thal», що і в « неандертальці » = «долині неандерів », а weg = 'шлях'). [Як це було, я хотів "хребет" не тому, що я не міг придумати, як його назвати, а тому, що люди, здається, називають його хребтом, чи вони дивляться на ймовірність чи RSS, і я пояснював своє бажання слідувати конвенція, хоча вона і дивна. Thalweg був би чудовим вибором для правильного слова, якби я не дотримувався дивного з'їзду
тальвегів

4
X стає близьким до матриці, що не має повного рангу (і, отже, X'X стає майже сингулярним) саме тоді , коли вірогідність з'являється хребтом. Хребет є прямим наслідком майже лінійної залежності між стовпцями , що робить s (майже) лінійно залежними. Xβ
Glen_b

28

+1 на ілюстрації Glen_b та коментарі до статистики щодо оцінювача Ridge. Я просто хотів би додати чисто математичну (лінійну алгебру) pov на регрес Грейна, який відповідає на питання ОП 1) та 2).

Спочатку зауважимо, що є симетричною позитивною напівфінітною матрицею - разів більше матричної коваріації вибірки. Отже, воно має власне-розпадXXp×pn

XX=VDV,D=[d1dp],di0

Оскільки матрична інверсія відповідає інверсії власних значень, для оцінки потрібен (зауважимо, що ). Очевидно, це працює лише в тому випадку, якщо всі власні значення суворо перевищують нуль, . Для це неможливо; для це взагалі вірно - саме це нас зазвичай турбує мультиколінеарність .(XX)1=VD1VV=V1di>0pnnp

Як статистики ми також хочемо знати, як невеликі збурення в даних змінюють оцінки. Зрозуміло, що невелика зміна будь-якого призводить до величезних змін в якщо дуже малий.Xdi1/didi

Отож, регресія Рейда - це переміщення всіх власних значень далі від нуля як

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
який тепер має власне значення . Ось чому вибір позитивного параметра штрафу робить матрицю зворотною - навіть у випадку . Для регресії Рейда невелика зміна даних вже не надає надзвичайно нестабільного впливу, який він надає на інверсію матриці.di+λλ0pnX

Числова стійкість пов'язана зі скороченням до нуля, оскільки вони обоє є наслідком додавання позитивної константи до власних значень: вона робить її більш стабільною, оскільки невелике збурення в не надто змінює обернену; він скорочує його майже до оскільки зараз множиться на що ближче до нуля, ніж рішення OLS з оберненими власними значеннями .X0V1Xy1/(di+λ)1/d


2
Ця відповідь задовільно відповідає алгебрі мого питання! Разом з відповіддю Glen_b це дає повне пояснення проблеми.
Гейзенберг

17

@ Демонстрація Glen_b чудова. Я просто додам, що окрім точної причини проблеми та опису того, як працює квадратична пеналізована регресія, є суть, що пеналізація має чистий ефект зменшення коефіцієнтів, відмінних від перехоплення до нуля. Це забезпечує пряме вирішення проблеми переобладнання, яка притаманна більшості регресійних аналізів, коли розмір вибірки не є величезним щодо кількості оцінок параметрів. Майже будь-яка пеналізація до нуля для неперехоплюючих буде підвищувати точність прогнозування щодо не пенізованої моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.