Умовне очікування R-квадрата


18

Розглянемо просту лінійну модель:

уy = X ββ + ϵ

yy=Xββ+ϵ

де і , і містить стовпець констант.ϵ ii . i . д .N ( 0 , σ 2 ) ϵii.i.d.N(0,σ2)X R n × pXRn×p p 2 p2XX

Моє запитання, з огляду на , \ beta та \ sigma , чи існує формула для нетривіальної верхньої межі на \ mathrm {E} (R ^ 2) *? (якщо припустити, що модель була оцінена OLS).E ( X X ) E(XX)β βσ σE ( R 2 )E(R2)

* Я припускав, пишучи це, що отримати E ( R 2 )E(R2) само по собі було б неможливо.

EDIT1

використовуючи розчин, отриманий Стефаном Лоран (див. нижче), ми можемо отримати нетривіальну верхню межу на E ( R 2 )E(R2) . Деякі чисельні моделювання (нижче) показують, що ця межа насправді досить щільна.

Стефан Лоран отримав наступне: R 2B ( p - 1 , n - p , λ )R2B(p1,np,λ) де B ( p - 1 , n - p , λ )B(p1,np,λ) - не центральний бета-розподіл з параметр нецентральності λλ з

λ = | | X β - E ( X ) β 1 n | | 2σ 2

λ=||XβE(X)β1n||2σ2

Так

E ( R 2 ) = E ( χ 2 p - 1 ( λ )χ 2 p - 1 ( λ ) + χ 2 n - p )E(χ 2 p - 1 (λ))E ( χ 2 p - 1 ( λ ) ) + E ( χ 2 n - p )

E(R2)=E(χ2p1(λ)χ2p1(λ)+χ2np)E(χ2p1(λ))E(χ2p1(λ))+E(χ2np)

де χ 2 k ( λ )χ2k(λ) - не центральний χ 2χ2 з параметром λλ і кk ступенями свободи. Отже, нетривіальна верхня межа для E ( R 2 )E(R2) є

λ + p - 1λ + n - 1

λ+p1λ+n1

це дуже щільно (набагато жорсткіше, ніж я очікував, що це можливо):

наприклад, використовуючи:

rho<-0.75
p<-10
n<-25*p
Su<-matrix(rho,p-1,p-1)
diag(Su)<-1
su<-1
set.seed(123)
bet<-runif(p)

середнє значення понад 1000 моделювання становить . Теоретична верхня межа, наведена вище, дає . Здається, пов'язана однаково точна для багатьох значень . Воістину приголомшливо!R 2 R20.9608190.9609081R 2R2

EDIT2:

після подальших досліджень виявляється, що якість наближення верхньої межі до покращиться, коли зростає (а все інше дорівнює збільшується з ).E ( R 2 ) λ + p λ nE(R2)λ+pλn


R 2 n pR2 має бета-розподіл з параметрами залежно лише від та . Ні ? np
Стефан Лоран

1
Oooppss вибачте, моє попереднє твердження справедливо лише під гіпотезою "нульової моделі" (лише перехоплення). В іншому випадку розподіл має бути чимось на зразок нецентрального бета-розподілу, з нецентральним параметром, що включає невідомі параметри. R 2R2
Стефан Лоран

@ StéphaneLaurent: спасибі Ви б дізналися більше про співвідношення між невідомими параметрами та параметрами бета-версії? Я застряг, тому будь-який вказівник буде вітатися ...
user603

Вам абсолютно потрібно мати справу з ? Можливо, є проста точна формула для . E [ R 2 ] E [ R 2 / ( 1 - R 2 ) ]E[R2]E[R2/(1R2)]
Стефан Лоран

1
З позначеннями моєї відповіді для деякого скалярного і перший момент нецентрального розподілу простий. R 2 / ( 1 - R 2 ) = k F k FR2/(1R2)=kFkF
Стефан Лоран

Відповіді:


13

Будь-яка лінійна модель може бути записана , де має стандартний нормальний розподіл на і передбачається, належить до лінійного підпросторі з . У вашому випадку .Y = μ + σ G GRnμWRnW=Im(X)Y=μ+σGGRnμWRnW=Im(X)

Нехай - одновимірна лінійна підпростора, породжена вектором . Приймаючи нижче, дуже пов'язаний з класичною статистикою Фішера для тесту гіпотези де є лінійним підпростором, і позначає ортогональне доповнення в , і позначає і (тоді і[ 1 ] W ( 1 , 1 , , 1 ) U = [ 1 ] R 2 F = P Z Y 2 / ( m - )[1]W(1,1,,1)U=[1]R2P W Y 2 / (n-m),H0:{μU}UWZ=UWUWm=dim(W)=dim(U)m=p=1

F=PZY2/(m)PWY2/(nm),
H0:{μU}UWZ=UWUWm=dim(W)=dim(U)m=p=1 у вашій ситуації).

Дійсно, тому що визначення є P Z Y 2P W Y 2 =R21R2

PZY2PWY2=R21R2
R2R2R2=PZY2PUY2=1PWY2PUY2.
R2=PZY2PUY2=1PWY2PUY2.

Очевидно та .PZY=PZμ+σPZGPZY=PZμ+σPZGPWY=σPWGPWY=σPWG

Коли вірно,H0:{μU}H0:{μU} то і тому має розподіл Фішера . Отже, із класичного відношення між розподілом Фішера та розподілом Бета .PZμ=0PZμ=0F=PZG2/(m)PWG2/(nm)Fm,nm

F=PZG2/(m)PWG2/(nm)Fm,nm
Fm,nmFm,nmR2B(m,nm)R2B(m,nm)

У загальній ситуації ми маємо мати справу з коли . У цьому загальному випадку є , нецентральний розподіл з градусами параметра свободи та нецентральності , а потім (нецентральний розподіл Фішера). Це класичний результат, який використовується для обчислення потужності -тестів.PZY=PZμ+σPZGPZY=PZμ+σPZGPZμ0PZμ0PZY2σ2χ2m(λ)PZY2σ2χ2m(λ)χ2χ2mmλ=PZμ2σ2λ=PZμ2σ2FFm,nm(λ)FFm,nm(λ)FF

Класичне відношення між розподілом Фішера та розподілом Бета має місце і в нецентральній ситуації. Нарешті, має нецентральний бета-розподіл із "параметрами форми" та та параметром нецентральності . Я думаю, що моменти є в літературі, але вони, можливо, дуже складні.R2R2mmnmnmλλ

Нарешті запишемо . Зауважте, що . Один має коли , а . Звідси де тут для невідомих параметрів вектор .PZμPZμPZ=PWPUPZ=PWPUPUμ=ˉμ1PUμ=μ¯1U=[1]U=[1]PWμ=μPWμ=μPZμ=μˉμ1PZμ=μμ¯1μ=Xβμ=Xβββ


1
PZxPZx є orthogoanl проекція на лінійному підпросторі . І позначає проекцію на ортогональну. xxZZPP
Стефан Лоран

1
Остерігайтеся . Я збираюся редагувати свою публікацію, щоб написати формули. PxPx2
Стефан Лоран

1
Виконано - чи бачите ви якесь спрощення?
Стефан Лоран

1
ˉμ=1nμi
Stéphane Laurent

1
Тип I, очевидно: тип II поширюється на . Насправді має розподіл типу II. Я сьогодні зробив останні виправлення. (0,)R2/(1R2)
Стефан Лоран
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.