Це проблема 3,23 на сторінці 97 з Гесте і ін., Елементи статистичного навчання , другий. ред. (5-та друкарня) .
Ключовим моментом цієї проблеми є добре розуміння звичайних найменших квадратів (тобто лінійної регресії), зокрема ортогональності встановлених значень та залишків.
Ортогональность Лемма : Нехай буде матриця плану , вектора реакції і (вірні) параметри. Якщо припустити, що є повноцінним (що ми будемо впродовж усього), оцінки OLS є . Встановлені значення . Тоді . Тобто встановлені значення є ортогональними щодо залишків. Це випливає, оскільки .Xn×pyβXββ^=(XTX)−1XTyy^=X(XTX)−1XTy⟨y^,y−y^⟩=y^T(y−y^)=0XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Тепер бути вектор - стовпець такої , що є - го стовпця . Передбачаються умови:xjxjjX
- 1N⟨xj,xj⟩=1 для кожного , ,j1N⟨y,y⟩=1
- 1N⟨xj,1p⟩=1N⟨y,1p⟩=0 де позначає вектор довжини , і1pp
- 1N|⟨xj,y⟩|=λ для всіх .j
Зауважимо, що, зокрема , останнє твердження лемми ортогональності тотожне для всіх .⟨xj,y−y^⟩=0j
Кореляції пов'язані
Тепер . Отже,
а другий член праворуч дорівнює нулю за леммою ортогональності , тому
за бажанням. Абсолютна величина кореляцій справедлива
u(α)=αXβ^=αy^
⟨xj,y−u(a)⟩=⟨xj,(1−α)y+αy−αy^⟩=(1−α)⟨xj,y⟩+α⟨xj,y−y^⟩,
1N|⟨xj,y−u(α)⟩|=(1−α)λ,
ρ^j(α)=1N|⟨xj,y−u(α)⟩|1N⟨xj,xj⟩−−−−−−−−√1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√=(1−α)λ1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√
Примітка : Права частина вгорі не залежить від і чисельник точно такий же, як і коваріація, оскільки ми припустили, що всі 'і розташовані по центру (так, зокрема, віднімання середнього значення не потрібно ).jxjy
У чому справа? Як збільшується вектор відповідь модифікують так , щоб вона дюймів її шлях до такого в разі ( обмежена! Розчину) за методом найменших квадратів , отримані від включення тільки перші параметрів в моделі. Це одночасно змінює оцінені параметри, оскільки вони є простими внутрішніми продуктами предикторів з (модифікованим) вектором відповіді. Однак модифікація набуває особливої форми. Він зберігає (величину) кореляції між предикторами та модифікованою відповіддю однаковими протягом усього процесу (навіть незважаючи на те, що значення кореляції змінюється). Подумайте, що це робить геометрично, і ви зрозумієте назву процедури!αp
Явна форма (абсолютної) кореляції
Давайте зосередимось на терміні в знаменнику, оскільки чисельник вже в потрібній формі. У нас є
⟨y−u(α),y−u(α)⟩=⟨(1−α)y+αy−u(α),(1−α)y+αy−u(α)⟩.
Підставляючи і використовуючи лінійність внутрішнього добутку, отримуємоu(α)=αy^
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Зауважте, що
- ⟨y,y⟩=N за припущенням,
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩ , застосувавши лемму ортогональності (ще раз) до другого члена в середині; і,
- ⟨y−y^,y−y^⟩=RSS за визначенням.
Збираючи це все разом, ви помітите, що ми отримаємо
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Щоб обернути речі, і так зрозуміло, що монотонно зменшується в і як .1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0ρ^j(α)αρ^j(α)↓0α↑1
Епілог : Концентруйтеся на ідеях тут. Дійсно є лише один. Ортогональность лема робить майже всю роботу за нас. Решта - це лише алгебра, позначення та вміння ці два останніх працювати.