Це цікаве питання. Дивно, але можливо зробити щось за певних припущень, але можлива втрата інформації про залишкову дисперсію. Від залежить, скільки втрачено.X
Розглянемо наступне розкладання сингулярного значення з з an матрицею з ортонормальними стовпцями, діагональна матриця з позитивними значеннями сингулярності в діагоналі і a ортогональна матриця. Тоді стовпці утворюють ортонормальну основу для простору стовпців і
- вектор коефіцієнтів для проекції на цей простір стовпців при розширенні в XX=UDVtXn × p D d 1 ≥ d 2 ≥ . . . ≥ d p > 0 V p × p U X Z = U t Y = D - 1 V t V D U t Y = D - 1 V t X t Y Y U Z XUn×pDd1≥d2≥...≥dp>0Vp×pUX
Z=UtY=D−1VtVDUtY=D−1VtXtY
YU колонна основа. З формули видно , що вирахує з знання і тільки.
ZXXtY
Оскільки прогноз регресії хребта для заданого може бути обчислений як
ми бачимо, що коефіцієнти для прогнозувача регресії хребта в основі стовпчика
Тепер робимо припущення про розподіл, що має розмірне середнє та матрицю коваріації . Тоді має -вимірне середнє та матрицю коваріації . Якщо уявити незалежнуУ = Х ( Х т Х + λ I ) - 1 х т У = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1 D Z U Z = D ( D 2 + λ I ) -λ
Y^=X(XtX+λI)−1XtY=UD(D2+λI)−1DUtY=UD(D2+λI)−1DZ
UY n ξ σ 2 I n Z p U t ξ σ 2 I p Y New Y X Z New = U t Y New Z E | | Y New - Y | | 2Z^=D(D2+λI)−1DZ.
Ynξσ2InZpUtξσ2IpYNew з тим же розподілом, що і (все умовно на звідси), відповідний має те саме розподіл як і є незалежним і
Тут третя рівність випливає з ортогональності і і четвертий тим, що
YXZNew=UtYNewZYNew-UZNewUZNew-U Z UErr0λE||YNew−Y^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^U має ортонормальні колони. Кількість - це помилка, про яку ми не можемо отримати жодної інформації, але вона також не залежить від . Щоб звести до мінімуму помилку передбачення з лівого боку, ми повинні мінімізувати другий член у правій частині.
Err0λ
За допомогою стандартного обчислення
Тут відомий як ефективні ступені свободи для регресії хребта з параметром . Незаангажований оцінювач є
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
Ми поєднуємо це з (неупередженим) оцінником
з огляду на те, що ми знаємо , які нам потім потрібно мінімізувати. Очевидно, що це може бути зроблено лише в тому випадку, якщо ми знаємо або маємо обґрунтовану здогадку або оцінювач .
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
Оцінка може бути більш проблематичною. Можна показати, що
Таким чином, якщо можливо вибрати настільки малим, що квадратичне зміщення можна ігнорувати, ми можемо спробувати оцінити як
Якщо це буде працювати під чому залежить від .σ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
λσ2σ^2=1p−d(λ)||Z−Z^||2.
X
Деякі деталі див. Розділ 3.4.1 та Розділ 7 у ESL або, можливо, навіть краще, Розділ 2 у GAM .