Коли використовувати розподіл Стьюдента або Нормального в лінійній регресії?


10

Я дивлюся на деякі проблеми, а в деяких на тестування коефіцієнтів, іноді я бачу людей, які використовують розподіл Стьюдента, а іноді бачу нормальний розподіл. Яке правило?


3
Це не є відповіддю, але зауважте, що -розподіл наближається до нормального розподілу, оскільки параметр ступенів свободи зростає. Минулої немає різної різниці, особливо в більшості тестових рамок гіпотез. Обмежувальна поведінка "зверху" в тому сенсі, що якщоtνν30Ttν іZN(0,1) , то|T|єстохастичний більшеніж|Z|.
кардинал

Відповіді:


15

Нормальний розподіл - це великий розподіл вибірки у багатьох змістовних статистичних проблемах, які стосуються певної версії теореми про центральний межа: у вас є (приблизно) незалежні відомості, які додаються для отримання відповіді. Якщо оцінки параметрів асимптотично нормальні, їх функції також будуть асимптотично нормальними (у звичайних випадках).

З іншого боку, розподіл Стьюдента виводиться за більш обмежених умов серед нормальних похибок регресії. Якщо ви можете придбати це припущення, ви можете придбати t -розподіл, який використовується для тестування гіпотези в лінійній регресії. Використання цього розподілу забезпечує більш широкі інтервали довіри, ніж використання звичайного розподілу. Змістовне значення цього полягає в тому, що у малих вибірках потрібно оцінити міру невизначеності, середню регресію в квадратичній помилці або стандартне відхилення залишків σ . (У великих зразках ви ніби мають стільки інформації, ніби ви її знали, тому t -розподіл перероджується до нормального розподілу.)ttσt

Бувають випадки лінійної регресії, навіть із обмеженими зразками, коли розподіл Стьюдента не може бути виправданим. Вони пов'язані з порушеннями умов другого порядку щодо регресійних помилок; а саме, що вони є (1) постійною дисперсією та (2) незалежною. Якщо ці припущення порушені, і ви виправляєте стандартні помилки, використовуючи оцінювач Eicker / White для гетерокедастичних, але незалежних залишків; або оцінювач Newey-West для послідовно корельованих помилок або кластеризованих стандартних помилокдля даних, пов'язаних з кластером, немає можливості виправити розумне обгрунтування для розподілу студентів. Однак, використовуючи відповідну версію аргументу асимптотичної нормальності (трейгулярні масиви тощо), ви можете виправдати нормальне наближення (хоча ви повинні мати на увазі, що ваші довірчі інтервали, ймовірно, будуть занадто вузькими).


1
(+1) Мені подобається, що під час відкриття третього абзацу я розумію, що лінійна регресія робиться з нескінченними (не "кінцевими") зразками!
whuber

@whuber: :) У моїх книгах, якщо це нормально, він повинен покладатися на CLT або щось асимптотичне. Інакше це має стільки ж сенсу, як це .
StasK

6

Мені подобається представлення розподілу студентів t як суміш нормального розподілу та гамма-розподілу:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

Зауважимо, що середнє значення гамма-розподілу - а дисперсія цього розподілу дорівнює V [ ρ | ν ] = 2E[ρ|ν]=1 . Таким чином, ми можемо розглядати t-розподіл як узагальнення припущення про постійну дисперсію до припущення про "подібну" дисперсію. ν восновному контролює, наскільки подібними ми дозволяємо бути відхиленнями. Ви також розглядаєте це як "випадкову зважену" регресію, оскільки ми можемо використовувати вищезазначений інтеграл як представлення "прихованої змінної" таким чином:V[ρ|ν]=2νν

yi=μi+eiρi

Де і ρ iG a m m a ( νeiN(0,σ2)ρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

yiμiσ2ρiσ2ρiρiμi=xiTβρiρi

β^=(iρixixiT)1(iρixiyi)

ρiρi

Зауважте, що не існує "правила" для вирішення цих речей, хоча моя та інші відповіді на це запитання можуть бути корисними для пошуку деяких тестів, які ви можете зробити на шляху кінцевої дисперсії (студент t - нескінченна дисперсія на ступінь свободи, меншу або рівну до двох).


+1: це виглядає правильно, але я не думаю, що слід говорити про суміш нормального та гамма-розподілу, а скоріше про нормальне сполучення гама-нормальний склад і мотивувати цю конструкцію, кажучи, що нормальний розподіл гами - це кон'югат перед нормальним розподілом (параметризований середнім і точним).
Ніл Г

Так, питання про суміш - хоча я зараз не можу придумати незграбний спосіб її виправити. Зауважте, що ця форма не є унікальною для поєднання розподілів - наприклад, якщо ми замінимо gma pdf на перевернутий експоненціальний pdf, ми отримаємо розподіл лапласа. Це призводить до "найменших абсолютних відхилень" замість найменших квадратів, як форми ростифікації нормального розподілу. Інші дистрибуції призвели б до інших "робустіфікацій" - можливо, не настільки аналітично, як студентські.
ймовірністьлогічний

X(U/ν)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.