Показано, що Оцінювач OLS еквівалентний за шкалою?


11

Я не маю офіційного визначення еквівалентності шкали, але ось що Вступ до статистичного навчання говорить про це на с. 217:

Стандартні найменші коефіцієнти квадратів ... еквівалентні за шкалою : множення на постійну просто призводить до масштабування оцінок коефіцієнта найменших квадратів на коефіцієнт .Xjc1/c

Для простоти припустимо загальну лінійну модель y=Xβ+ϵ , де yRN , X - матриця N×(p+1) (де p+1<N ) з усіма записами в R , βRp+1 і ϵ - N -вимірний вектор дійсних значень випадкових величин з E[ϵ]=0N×1 .

З оцінки OLS ми знаємо, що якщо X має повний (стовпець) ранг,

β^X=(XTX)1XTy.
Припустимо, ми помножили стовпець X , скажімо xk на деякий k{1,2,,p+1} постійною c0 . Це було б еквівалентно матриці
X[111c11]S=[x1x2cxkxp+1]X~
де всі інші записи матриці S вище 0 , а c знаходиться в k му записі діагоналі S . Потім,X~X~оскільки нова матриця дизайну -
β^X~=(X~TX~)1X~Ty.
Після деякої роботи можна показати, що
X~TX~=[x1Tx1x1Tx2cx1Txkx1Txp+1x2Tx1x2Tx2cx2Txkx2Txp+1cxkTx1cxkTx2c2xkTxkcxkTxp+1xp+1Tx1xp+1Tx2cxp+1Txp+1xp+1Txp+1]
\ cdots & \ mathbf {x} _ {p + 1} ^ {T} \ mathbf {x} _ {p + 1} \\ \ end {bmatrix} і
X~Ty=[x1Tyx2TycxkTyxp+1Ty]
Як мені поїхати звідси, щоб показати вказану вище претензію (тобто, що β^X~=1cβ^X )? Мені незрозуміло, як обчислити (X~TX~)1 .

Я думаю, що ваш неправильний, йому не вистачає множника у цілому ряду. cX~TX~c
Firebug

1
Також майте на увазі, що претензія - , не кожен . ββ^k,new=1cβ^k,oldβ
Firebug

@Firebug Так, я просто зрозумів це. Я публікую відповідь.
Кларнетист

2
Ви можете замінити всю цю алгебру набагато більш простим аналізом одиниць, тому що множення на просто змінює одиницю вимірювання, і тому відповідна зміна одиниць, пов'язаних з її коефіцієнтом полягає в тому, щоб розділити її на . Це не доводить , на жаль, слід розділити на . Однак цей ланцюжок думок може нагадувати нам, що множинна регресія може бути здійснена послідовною регресією проти одного регресора за один раз, де зрозуміло, що ділиться на , і тому доказ є повним. з β J з β J з β J зXjcβjcβ^jcβ^jc
качан

@whuber, хоча інтуїція для результату зрозуміла, здається, що просто потрібно додати трохи алгебри для надання доказів. Зрештою, коефіцієнт масштабування потрібно перевернути. c
користувач795305

Відповіді:


11

Оскільки твердження в цитаті - це сукупність тверджень про перенесення масштабів стовпців , ви можете також довести їх усі відразу. Дійсно, для доведення узагальнення твердження не потрібно більше:X

Коли правильно множиться на обернену матрицю , то нова оцінка коефіцієнта дорівнює ліво-помножена на .β β - 1XAβ^Aβ^A1

Єдині алгебраїчні факти, які вам потрібні - це (легко доведені, добре відомі), що для будь-яких матриць і для оборотних матриць і . (Більш тонка версія останнього потрібна при роботі з узагальненими обертами: для перетворюваних і і будь-якого , . )(AB)=BAAB(AB)1=B1A1ABABX(AXB)=B1XA1


Доведення алгеброю :

β^A=((XA)((XA))(XA)y=A1(XX)(A)1Ay=A1β^,

QED. (Для того, щоб цей доказ був повністю загальним, суперскрипт відноситься до узагальненого зворотного.)


Доказ геометрією :

Зазначені основи і з і , відповідно, являє собою лінійне перетворення з до . Право множення на можна вважати таким, що залишає це перетворення фіксованим, але змінює на (тобто, у стовпці ). Відповідно до цієї зміни бази, подання будь-якого вектора повинно змінюватися шляхом лівого множення на ,EpEnRnRpXRpRnXAEpAEpAβ^RpA1QED .

(Цей доказ працює без змін, навіть коли не є зворотним.)XX


Цитата конкретно стосується випадку діагональних матриць з для та .AAii=1ijAjj=c


З'єднання з найменшими квадратами

Завдання тут полягає у використанні перших принципів для отримання результату, при цьому принципом є найменш квадратів: оцінка коефіцієнтів, що мінімізують суму квадратів залишків.

Знову ж таки, доведення (величезного) узагальнення виявляється не складніше і є досить показовим. Припустимо, - це будь-яке відображення (лінійне чи ні) реальних векторних просторів, і припустимо, - будь-яка реально оцінена функція на . Нехай - (можливо, порожній) набір точок для яких зведено до мінімуму.

ϕ:VpWn
QWnUVpvQ(ϕ(v))

Результат: , який визначається виключно і , не залежить від вибору бази використовується для представлення векторів у .UQϕEpVp

Доказ: QED.

Немає чого доводити!

Застосування результату: Нехай - додатна квадратична напіввизначена форма на , нехай , і припустимо, - лінійна карта, представлена коли бази і . Визначте . Виберіть основу і, припустимо, є представленням деякої на цій основі. Це найменші квадрати : мінімізує відстань у квадраті . Тому щоFRnyRnϕXVp=RpWn=RnQ(x)=F(y,x)Rpβ^vUx=Xβ^F(y,x)Xлінійне відображення, зміна основи відповідає правій множення деякої оборотної матриці . Це залишить множення на , QED .RpXAβ^A1


6

Визначте оцінювач найменших квадратів , де проектна матриця - повний ранг. Якщо припустити, що матриця масштабування є незворотною.β^=argminβRpyXβ22XRn×pSRp×p

Визначте цей новий масштабований оцінювач . Це означає, що для всіх . Визначаючи , ми можемо переписати цю відображену нерівність вище як для всіх . Тому , і випливає, що оцінювач найменших квадратів Через оберненість матриці масштабуванняα~=argminαRpyXSα22

yXSα~22<yXSα22
αα~β~=Sα~
yXβ~22<yXβ22
ββ~β~=argminβRpyXβ22
β^=β~=Sα~.
S, випливає, що . У нашому випадку це відрізняється від тим, що запис масштабується на .α~=S1β^β^kth1c

1
Я не знайомий, як мені слід працювати з та подібними функціями - чи могли б ви пояснити перехід від другого до третього рядка рівнянь? arg min
Кларнетист

Я написав це трохи інакше, що повинно зробити кроки більш чіткими.
user795305

Це справді розумно. (+1)
Кларнетист

4

Я зрозумів це після розміщення запитання. Якщо моя робота правильна, я неправильно трактував претензію. масштабування відбувається тільки на одному компоненті відповідного колонці множаться на .1cβXc

Зауважте, що у наведених вище позначеннях є діагональною, симетричною матрицею та має обернену (бо вона діагональна) Зверніть увагу, що - матриця . Припустимо, що S(p+1)×(p+1)

S1=[1111c11].
(X~TX~)1(p+1)×(p+1)
(XTX)1=[z1z2zkzp+1].
(X~TX~)1=[(XS)TXS]1=(STXTXS)1=(SXTXS)1=S1(XTX)1S1.
Отже, і помноживши це на має схожий ефект з тим, що множення на зробило так само, множимо на
S1(XTX)1=[z1z21czkzp+1]
S1XS1czk1c : Отже,
S1(XTX)1S1=[z1z21c2zkzp+1].
β^X~=S1(XTX)1S1(XS)Ty=[z1z21c2zkzp+1][x1Tyx2TycxkTyxp+1Ty]=[z1x1Tyz2x2Ty1czkxkTyzp+1xp+1Ty]
за бажанням.

Існує помилка в . Вам потрібно перенести . S1(XTX)1S1(XS)y(XS)
ДжонК

3

Найбільш тривіальне доказ коли-небудь

Ви починаєте з лінійного рівняння: Тепер ви хочете змінити масштаб ваших регресорів, можливо, перетворите з метричної системи на Imperial, ви знаєте кілограми в фунти, метри до ярдів і т. Д. Отже, ви придумали з матрицею перетворення , де кожен є коефіцієнтом перетворення для змінної (колонки) в конструкції матриці .

Y=Xβ+ε
S=diag(s1,s1,,sn)siiX

Давайте перепишемо рівняння:

Y=(XS)(S1β)+ε

Тепер абсолютно зрозуміло, що масштабування є властивістю лінійності вашого рівняння, а не методом OLS оцінки коефіцієнтів. Незалежно від методу оцінки з лінійним рівнянням, ви вважаєте, що коли масштаби регресорів масштабуються як ваші нові коефіцієнти слід масштабувати якXSS1β

Доказ Algebra лише для OLS

Масштабування полягає в наступному: , де масштабний коефіцієнт кожної змінної (стовпчик), і зменшена версія . Назвемо матрицю діагональної шкали . Ваш OLS-оцінювач - Давайте підключимо масштабовану матрицю замість та використаємо деяку матричну алгебру : Отже, ви бачите, як новий коефіцієнт просто зменшує старий коефіцієнт, як очікувалося.

Z=Xdiag(s1,s2,...,sn)
siZXSdiag(s1,s2,...,sn)
β^=(XTX)1XTY
ZX
(ZTZ)1ZTY=(STXTXS)1STXTY=S1(XTX)1S1SXTY=S1(XTX)1XTY=S1β^

2
Мені подобаються ваші підходи, але я не переконаний у "найтривітнішому доказі будь-коли". Ви неявно припустили, і все ще потрібно довести, що переписана модель повинна відповідати тій, що й оригінальна. Якщо говорити про це більш суворо: якщо ми розглядаємо процедуру підгонки як функцію , де M - набір усіх можливих даних (які ми могли б записати як упорядкована пара ( X , Y ) ) і R p - це сукупність усіх можливих оцінок коефіцієнта, тоді вам потрібно продемонструвати, що δ ( X , Y ) = S -δ:MRpM(X,Y)Rpдля всіх оборотнихS, всеX, і всеY. (Це не завжди вірно!)δ(X,Y)=S1δ(XS,Y)SXY
whuber

@whuber, насправді це інший шлях: розумна процедура підгонки повинна задовольнити цю умову, інакше проста зміна одиниці виміру дасть інший прогноз / оцінку. я оновлю свою відповідь, подумаю трохи
Аксакал

Я згоден - але я можу уявити винятки у випадках, коли не є повноцінним. Ось що запропонувало мені ситуація не настільки банальна, як може здатися. X
whuber

3
імперська половинка, а не королівська ...: D (
приємна

@ usεr11852, сьогодні я щось дізнався :)
Аксакал

2

Самий простий спосіб , щоб отримати цей результат повинні пам'ятати , що у є проекція у на колонку просторі X . Β є вектором коефіцієнтів , коли у виражається у вигляді лінійної комбінації стовпців X . Якщо деякий стовпчик масштабується на коефіцієнт c , то зрозуміло, що відповідний коефіцієнт у лінійній комбінації повинен бути масштабований на 1 / c .y^yX. β^y^Xc1/c

Нехай бути значенням р і я бути значенням рішення МНКАА , коли один стовпець масштабується з . b 1 x 1 + . . . + b i x i + . . . + b m x m = a 1 x 1 + . . . a i ( c x i ) + . . . +biβ^aic.

b1x1+...+bixi+...+bmxm=a1x1+...ai(cxi)+...+anxn

випливає, що де j i і b i = a i c , припускаючи, що стовпці X лінійно незалежні.bj=ajjibi=aicX

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.