Лінійна регресія, коли ви знаєте лише , а не безпосередньо


13

Нехай .Xβ=Y

Ми не знаємо точно, тільки його кореляції з кожним предиктором, .YXtY

Звичайним рішенням найменших квадратів (OLS) є і проблеми не виникає.β=(XtX)1XtY

Але припустимо, що близький до сингулярності (мультиколінеарність), і вам потрібно оцінити оптимальний параметр хребта. Всі методи , здається, потрібні точні значення .XtXY

Чи існує альтернативний метод, коли відомий лише ?XtY


цікаве запитання. Можливо, якийсь алгоритм ЕМ спрацював би ...
ймовірність відомості

Я не розумію, чи не можна використовувати перехресну перевірку для оцінки оптимального параметра гребеня?
Пардіс

@Pardis: У запитанні не вказано жодної функції втрат, тому ми не знаємо, які оптимальні засоби. Чи можете ви побачити проблему, з якою ми стикаємося, якщо функцією втрати є MSE?
кардинал

1
@JohnSmith: Ви натякаєте на те, що я їхав. Немає вказівки, як вимірювати "оптимальність". Те, що ви ефективно робите, - це ввести іншу метрику (функцію відстані), щоб виміряти "якість" прогнозування або придатності. Я підозрюю, що нам потрібно більше деталей з ОП, щоб зайти дуже далеко.
кардинал

1
@Pardis: Пошук оцінок не є проблемою, як ви зазначаєте. :) Однак, якщо ви вирішили зробити кросвалідизацію, як ви збираєтеся оцінювати вибірковий MSE, тобто по лівій складці для кожної ітерації? :)
кардинал

Відповіді:


8

Це цікаве питання. Дивно, але можливо зробити щось за певних припущень, але можлива втрата інформації про залишкову дисперсію. Від залежить, скільки втрачено.X

Розглянемо наступне розкладання сингулярного значення з з an матрицею з ортонормальними стовпцями, діагональна матриця з позитивними значеннями сингулярності в діагоналі і a ортогональна матриця. Тоді стовпці утворюють ортонормальну основу для простору стовпців і - вектор коефіцієнтів для проекції на цей простір стовпців при розширенні в XX=UDVtXn × p D d 1d 2. . . d p > 0 V p × p U X Z = U t Y = D - 1 V t V D U t Y = D - 1 V t X t Y Y U Z XUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YU колонна основа. З формули видно , що вирахує з знання і тільки.ZXXtY

Оскільки прогноз регресії хребта для заданого може бути обчислений як ми бачимо, що коефіцієнти для прогнозувача регресії хребта в основі стовпчика Тепер робимо припущення про розподіл, що має розмірне середнє та матрицю коваріації . Тоді має -вимірне середнє та матрицю коваріації . Якщо уявити незалежнуУ = Х ( Х т Х + λ I ) - 1 х т У = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1 D Z U Z = D ( D 2 + λ I ) -λ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
UY n ξ σ 2 I n Z p U t ξ σ 2 I p Y New Y X Z New = U t Y New Z E | | Y New - Y | | 2
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew з тим же розподілом, що і (все умовно на звідси), відповідний має те саме розподіл як і є незалежним і Тут третя рівність випливає з ортогональності і і четвертий тим, щоYXZNew=UtYNewZYNew-UZNewUZNew-U Z UErr0λ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U має ортонормальні колони. Кількість - це помилка, про яку ми не можемо отримати жодної інформації, але вона також не залежить від . Щоб звести до мінімуму помилку передбачення з лівого боку, ми повинні мінімізувати другий член у правій частині.Err0λ

За допомогою стандартного обчислення Тут відомий як ефективні ступені свободи для регресії хребта з параметром . Незаангажований оцінювач є

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

Ми поєднуємо це з (неупередженим) оцінником з огляду на те, що ми знаємо , які нам потім потрібно мінімізувати. Очевидно, що це може бути зроблено лише в тому випадку, якщо ми знаємо або маємо обґрунтовану здогадку або оцінювач .

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

Оцінка може бути більш проблематичною. Можна показати, що Таким чином, якщо можливо вибрати настільки малим, що квадратичне зміщення можна ігнорувати, ми можемо спробувати оцінити як Якщо це буде працювати під чому залежить від .σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2
σ^2=1pd(λ)||ZZ^||2.
X

Деякі деталі див. Розділ 3.4.1 та Розділ 7 у ESL або, можливо, навіть краще, Розділ 2 у GAM .


0

Визначте як у питанні, і для різних параметрів та задає міток зразків. Тоді обчислюється, оскільки невідоме випадає при розширенні обох норм.ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

Це призводить до наступного алгоритму:

  • Підрахувати для деяких варіантів навчальної вибірки .e(λ,K)K
  • Накресліть результати як функцію .λ
  • Прийміть значення там, де сюжет є рівним.λ
  • Використовуйте як кінцеву оцінку.β=[XTX+λI]1XTY

1
Я здогадуюсь, "де сюжет найбідніший" буде в дуже маленький, як приблизно 0 :)λ
jbowman

@jbowman: Це станеться лише в тому випадку, якщо проблема добре обумовлена ​​і не потребує регуляризації, то дійсно адекватний. У випадку, що не обумовлений, передбачення предметів поза буде поганим через перевищення, і буде великим. λ=0Ke(λ,K)
Арнольд Ноймайер

3
@ArnoldNeumaier: не можна обчислити. Відомо лише співвідношення кожного прогноктора. знаходиться в «домені предиктора», а не в «домені Y» (Якщо N - розмір вибірки, а р - кількість предикторів, у нас є лише значення p, по одному для кожного прогноктора). (XTY)K(XTY)
Джаг

@Jag: Тоді недостатньо інформації для вибору . Але мабуть, було зібрано якось. Якщо під час його збору ви розділите зразок на партії та збираєте окремо для кожної партії, тоді можна резервувати одну партію для перехресної перевірки. λXTYkXTY
Арнольд Ноймайер

@ArnoldNeumaier: надаються зовні, не збираються. XTY
Джаг
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.