Доведення того, що F-статистика слідує за F-розподілом


20

У світлі цього питання: Доказ того, що коефіцієнти в моделі OLS відповідають t-розподілу з (nk) ступенем свободи

Я хотів би зрозуміти, чому

F=(TSSRSS)/(p1)RSS/(np),

де - кількість параметрів моделі та кількість спостережень, а загальна дисперсія, залишкова дисперсія, слід розподілу .pnTSSRSSFp1,np

Я мушу визнати, що навіть не намагався довести це, бо не знав би з чого почати.


Крістоф Ганк і Френсіс вже дали дуже гарну відповідь. Якщо у вас все ще виникають труднощі в розумінні доказів тесту на f для лінійної регресії, спробуйте перевірити teamvable.github.io/techblog/… . Я написав допис у блозі про доказ швидкості лінійної регресії. Він написаний корейською мовою, але це може не бути проблемою, оскільки майже все це математична формула. Я сподіваюся, що це допоможе, якщо у вас все-таки виникнуть труднощі в розумінні доказу ф-тесту для лінійної регресії.
Таехо О

Хоча це посилання може відповісти на питання, краще включити сюди суттєві частини відповіді та надати посилання для довідки. Відповіді лише на посилання можуть стати недійсними, якщо пов’язана сторінка зміниться. - З огляду
mkt - Відновіть Моніку

Відповіді:


19

Давайте покажемо результат, для загального випадку якого ваша формула для тестової статистики є окремим випадком. Взагалі нам потрібно переконатися, що статистику можна, за характеристикою розподілуF , записати як відношення незалежних rvs, поділених на їх ступінь свободи.χ2

Нехай з і відомими, не випадкові і має повне раннє колонку . Це являє лінійні обмеження для (на відміну від позначення ОП) регресорів, включаючи постійний термін. Так, у прикладі @ user1627466 відповідає обмеженням встановлення всіх коефіцієнтів нахилу до нуля.H0:Rβ=rRrR:k×qqqkp1q=k1

З огляду на , у нас є так що (з будучи «квадратним коренем матриці» , наприклад, через a Розкладання Холеського) як Var(β^ols)=σ2(XX)1

R(β^olsβ)N(0,σ2R(XX)1R),
B1/2={R(XX)1R}1/2B1={R(XX)1R}1
n:=B1/2σR(β^olsβ)N(0,Iq),
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
де другий рядок використовує дисперсію OLSE.

Це, як показано у відповіді, на яку ви посилаєтесь (див. Також тут ), не залежить від де - звичайна неупереджена оцінка дисперсійної помилки, з є" залишковим виробником матриця "з регресу на .

d:=(nk)σ^2σ2χnk2,
сг 2=у'МXσ^2=yMXy/(nk)MX=IX(XX)1XX

Отже, оскільки - квадратична форма у нормалах, Зокрема, під , це зводиться до статистики nn

nnχq2/qd/(nk)=(β^olsβ)R{R(XX)1R}1R(β^olsβ)/qσ^2Fq,nk.
H0:Rβ=r
F=(Rβ^olsr){R(XX)1R}1(Rβ^olsr)/qσ^2Fq,nk.

Для ілюстрації розглянемо окремий випадок , , , і . Тоді квадратну евклідову відстань OLS оцінка з походження, стандартизованої за кількістю елементів - підкреслюючи, що оскільки є квадратними стандартними нормалами, а значить, , розподіл може бути видно як "середній розподіл.R=Ir=0q=2σ 2 = 1 Х ' Х = Я F = & beta ; ' OLS & beta ; олова / 2 = & beta ; 2 олов , 1 + & beta ; 2 олов , 2σ^2=1XX=I

F=β^olsβ^ols/2=β^ols,12+β^ols,222,
& beta2оли,2χ21Рх2β^ols,22χ12Fχ2

У випадку, якщо ви віддаєте перевагу невеликому моделюванню (що, звичайно, не є доказом!), В якому перевіряється нуль, що жоден з регресорів не має значення - чого вони насправді не мають, щоб ми імітували нульовий розподіл.k

введіть тут опис зображення

Ми бачимо дуже гарну згоду між теоретичною щільністю та гістограмою статистичних даних тесту в Монте-Карло.

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

Щоб побачити, що версії тестової статистики у запитанні та відповіді дійсно рівнозначні, зауважте, що нуль відповідає обмеженням і .R=[0I]r=0

Нехай розділиться згідно з яким коефіцієнти обмежені нулем під нулем (у вашому випадку всі, крім постійної, але деривація, яку слід слідувати, є загальною). Також нехай - відповідна розподілена оцінка OLS.X=[X1X2]β оли = ( β 'β^ols=(β^ols,1,β^ols,2)

Тоді і нижній правий блок Тепер використовуйте результати для розділених інверсій, щоб отримати де .

Rβ^ols=β^ols,2
R(XX)1RD~,
(XTX)1=(X1X1X1X2X2X1X2X2)1(A~B~C~D~)
˜ D =(X2 X2-X2 X1(X1 X1)-1X
D~=(Х2'Х2-Х2'Х1(Х1'Х1)-1Х1'Х2)-1=(Х2'МХ1Х2)-1
МХ1=Я-Х1(Х1'Х1)-1Х1'

Таким чином, чисельник статистики стає (без ділення на ) Далі, нагадаємо, що за теоремою Фріша-Во-Ловелла ми можемо записати так що Жq

Жнум=β^ols,2'(Х2'МХ1Х2)β^ols,2
& beta ; оли , 2 =( Х
β^ols,2=(Х2'МХ1Х2)-1Х2'МХ1у
Жнум=у'МХ1Х2(Х2'МХ1Х2)-1(Х2'МХ1Х2)(Х2'МХ1Х2)-1Х2'МХ1у=у'МХ1Х2(Х2'МХ1Х2)-1Х2'МХ1у

Залишається показати, що цей чисельник ідентичний , різниці в необмеженій та обмеженій сумі квадратних залишків.СРСР-РРСР

Тут - залишкова сума квадратів від регресування на , тобто з накладеним . У вашому спеціальному випадку це просто , залишки регресії на константі.

РРСР=у'МХ1у
уХ1Н0ТSS=i(уi-у¯)2

Знову використовуючи FWL (що також показує, що залишки двох підходів однакові), ми можемо записати (SSR у ваших позначеннях) як SSR регресії СРСР

МХ1унаМХ1Х2

Тобто

СРСР=у'МХ1'ММХ1Х2МХ1у=у'МХ1'(Я-ПМХ1Х2)МХ1у=у'МХ1у-у'МХ1МХ1Х2((МХ1Х2)'МХ1Х2)-1(МХ1Х2)'МХ1у=у'МХ1у-у'МХ1Х2(Х2'МХ1Х2)-1Х2'МХ1у

Таким чином,

РРСР-СРСР=у'МХ1у-(у'МХ1у-у'МХ1Х2(Х2'МХ1Х2)-1Х2'МХ1у)=у'МХ1Х2(Х2'МХ1Х2)-1Х2'МХ1у


Спасибі. Я не знаю, чи вважається це рукостисканням в даний момент, але як ви переходите від вашої суми квадратних бет до виразу, що містить суму квадратів?
користувач1627466

1
@ user1627466 я додав виведення еквівалентності двох формул.
Крістоф Ганк

4

@ChristophHanck дав дуже вичерпну відповідь, тут я додам ескіз доказів про окрему справу згаданої ОП. Сподіваємось, це також легше наслідувати початківцям.

Випадкова величина якщо де і є незалежними. Таким чином, щоб показати, що -statistic має -розподіл, ми можемо також показати, що і для деякої постійної , і що вони незалежні.YЖг1,г2

Y=Х1/г1Х2/г2,
Х1χг12Х2χг22ЖЖcESSχp-12cRSSχн-p2c

У моделі OLS пишемо де - матриця , а в ідеалі . Для зручності введемо матрицю капелюхів (зверніть увагу ) та залишковий виробник . Важливі властивості і полягають у тому, що вони є одночасно симетричними та ідентичними. Крім того, у нас є і , вони стануть у нагоді пізніше.

у=Хβ+ε,
Хн×pεNн(0,σ2Я)Н=Х(ХТХ)-1ХТу^=НуМ=Я-ННМтр(Н)=pНХ=Х

Позначимо матрицю всіх як , суму квадратів можна виразити квадратичними формами:Зауважимо , що . Можна переконатися, що є idempotent і . Як випливає з цього то , що також ідемпотентна і .J

TSS=уТ(Я-1нJ)у,RSS=уТМу,ESS=уТ(Н-1нJ)у.
М+(Н-J/н)+J/н=ЯJ/нзвання(М)+звання(Н-J/н)+звання(J/н)=нН-J/нМ(Н-J/н)=0

Тепер ми можемо показати, що -statistic має -розподіл (шукати теорему Кокрана для отримання додаткової інформації). Тут нам потрібні два факти:ЖЖ

  1. Нехай . Припустимо, симетричний з рангом і є ідентичним, тоді , тобто не центральний з df і нецентральністю . Це особливий випадок результату Бальдессарі , доказ можна також знайти тут .хNн(мк,Σ)АrАΣхТАхχr2(мкТАмк/2)χ2rмкТАмк/2
  2. Нехай . Якщо , то і є незалежними. Це відомо як теорема Крейга .хNн(мк,Σ)АΣБ=0хТАххТБх

Оскільки , у нас єОднак, під нульовою гіпотезою , так дійсно . З іншого боку, зверніть увагу , що так . Тому . Оскільки , та також не залежать. Це відразу випливає потімуNн(Хβ,σ2Я)β=0ESS/σ2χ2

ESSσ2=(уσ)Т(Н-1нJ)уσχp-12((Хβ)Т(Н-Jн)Хβ).
β=0 yTMy=εTMεHX=XRSS/σ2ESS/σ2χp-12уТМу=εТМεНХ=ХRSS/σ2χн-p2М(Н-J/н)=0ESS/σ2RSS/σ2
Ж=(TSS-RSS)/(p-1)RSS/(н-p)=ESSσ2/(p-1)RSSσ2/(н-p)Жp-1,н-p.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.