+1 на ілюстрації Glen_b та коментарі до статистики щодо оцінювача Ridge. Я просто хотів би додати чисто математичну (лінійну алгебру) pov на регрес Грейна, який відповідає на питання ОП 1) та 2).
Спочатку зауважимо, що є симетричною позитивною напівфінітною матрицею - разів більше матричної коваріації вибірки. Отже, воно має власне-розпадX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Оскільки матрична інверсія відповідає інверсії власних значень, для оцінки потрібен (зауважимо, що ). Очевидно, це працює лише в тому випадку, якщо всі власні значення суворо перевищують нуль, . Для це неможливо; для це взагалі вірно - саме це нас зазвичай турбує мультиколінеарність .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
Як статистики ми також хочемо знати, як невеликі збурення в даних змінюють оцінки. Зрозуміло, що невелика зміна будь-якого призводить до величезних змін в якщо дуже малий.Xdi1/didi
Отож, регресія Рейда - це переміщення всіх власних значень далі від нуля як
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
який тепер має власне значення . Ось чому вибір позитивного параметра штрафу робить матрицю зворотною - навіть у випадку . Для регресії Рейда невелика зміна даних вже не надає надзвичайно нестабільного впливу, який він надає на інверсію матриці.
di+λ≥λ≥0p≫nX
Числова стійкість пов'язана зі скороченням до нуля, оскільки вони обоє є наслідком додавання позитивної константи до власних значень: вона робить її більш стабільною, оскільки невелике збурення в не надто змінює обернену; він скорочує його майже до оскільки зараз множиться на що ближче до нуля, ніж рішення OLS з оберненими власними значеннями .X0V−1X′y1/(di+λ)1/d