Чи передбачає припущення про нормальні помилки, що Y також є нормальним?


12

Якщо я не помиляюся, у лінійній моделі розподіл відповіді передбачається систематичним і випадковим компонентом. Термін помилки фіксує випадкову складову. Отже, якщо припустити, що термін помилки є нормально розподіленим, чи це не означає, що відповідь також нормально розподілений? Я думаю, що це так, але тоді такі заяви, як наведена нижче, здаються досить заплутаними:

І ви чітко бачите, що єдине припущення "нормальності" в цій моделі полягає в тому, що залишки (або "помилки" ) повинні нормально розподілятися. Немає припущення про розподіл предиктора або змінної відповіді .x i y iϵixiyi

Джерело: Прогнози, відповіді та залишки: Що насправді потрібно нормально поширювати?


7
Якщо 's нестахастичні, нормальність передбачає нормальність залежної змінної. Для стохастичних незалежних змінних це взагалі не буде мати значення, тоді це залежить від розподілу незалежних змінних. ϵxϵ

Відповіді:


19

Стандартна модель OLS - це з для фіксованого .ε N ( 0 , σ 2 I n )Y=Xβ+εεN(0,σ2In) XRn×p

Це дійсно означає, що , хоча це наслідок нашого припущення щодо розподілу , а не насправді припущення. Крім того, майте на увазі , що я говорю про умовне розподіл , а НЕ маргінальне розподіл . Я зосереджуюсь на умовному розподілі, тому що я думаю, що про це ви справді запитуєте.ε Y YY|{X,β,σ2}N(Xβ,σ2In)εYY

Я думаю, що заплутаність полягає в тому, що це не означає, що гістограма буде виглядати нормально. Ми говоримо, що весь вектор - це єдиний малюнок з багатоваріантного нормального розподілу, де кожен елемент має потенційно інше середнє . Це не те саме, що бути ідентичним звичайним зразком. Помилки насправді є зразком iid, тому гістограма їх буде виглядати нормально (і тому ми робимо графік QQ залишків, а не відповідь).Y E ( Y i | X i ) = X T i β εYYE(Yi|Xi)=XiTβε

Ось приклад: припустимо, ми вимірюємо висоту для вибірки шестикласників і 12-х гредерів. Нашою моделлю є з . Якщо ми подивимось на гістограму ми, мабуть, побачимо бімодальний розподіл, який має один пік для шестикласників і один пік для 12-х гредерів, але це не означає порушення наших припущень.H i = β 0 + β 1 I ( 12 клас ) + ε i ε iiid N ( 0 , σ 2 ) H iHHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


Може хтось, будь ласка, уточнив позначення ? σ2In
снорам

Це означає матрицю тотожності помножену на скалярну . σ 2n×nσ2
jld

У одиничну матрицю раз деякі відмінності. n×n
Sycorax повідомляє про відновлення Моніки

11

Отже, якщо припустити, що термін помилки є нормально розподіленим, чи це не означає, що відповідь також нормально розподілений?

Навіть не віддалено. Я пам'ятаю це про те, що залишки в нормі залежать від детермінованої частини моделі . Ось демонстрація того, як це виглядає на практиці.

Я починаю з випадкового генерування деяких даних. Потім я визначаю результат, який є лінійною функцією прогнозів, і оцінюю модель.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Давайте розглянемо, як виглядають ці залишки. Я підозрюю, що їх слід нормально поширювати, оскільки результат yмав нормальний шум, який додався до нього. І справді це так.

введіть тут опис зображення

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Перевіряючи розподіл y, однак, ми можемо побачити, що це точно не нормально! Я перекрив функцію густини з тією ж середньою та дисперсією, як це y, але, очевидно, це жахливо підходить!

Щільність y

Причиною цього в цьому випадку є те, що вхідні дані навіть не є віддаленими нормальними. Ніщо про цю регресійну модель не вимагає нормальності, за винятком залишків - не в незалежній змінній і не в залежній змінній.

Деністі х


8

Ні, це не так. Наприклад, припустимо, у нас є модель, яка передбачає вагу олімпійських спортсменів. Хоча вагу цілком можна розподілити серед спортсменів у кожному виді спорту, вона не буде серед усіх спортсменів - це може бути навіть не однодумним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.