Підтвердження розподілу залишків за лінійною регресією


17

Припустимо, ми провели просту лінійну регресію y=β0+β1x+u , зберегли залишки ui^ та намалюємо гістограму розподілу залишків. Якщо ми отримаємо щось, схоже на звичне розповсюдження, чи можемо ми припустити, що наш термін помилки має такий розподіл? Скажіть, якщо ми з'ясували, що залишки нагадують нормальний розподіл, чи є сенс вважати нормальність терміна помилки в чисельності населення? Я думаю, що це розумно, але як це можна виправдати?


1
Особисто мені важко оцінити нормальність за допомогою гістограми (або графіку щільності ядра). Я б ніколи не покладався на них як на "остаточне" доказ. Діаграми QQ набагато потужніші для цієї мети.

Відповіді:


18

Все залежить від того, як ви оцінюєте параметри . Зазвичай оцінювачі лінійні, що означає, що залишки є лінійними функціями даних. Коли помилки є нормальний розподіл, то так роблять дані, звідки так що невязки ˙U I ( I індекси Міон даних, звичайно).uiu^ii

Можливо (і логічно можливо), що коли залишки мають приблизно нормальний (однофакторний) розподіл, то це виникає внаслідок ненормального розподілу помилок. Однак при найменшій квадратиці (або максимальній ймовірності) методики оцінки лінійне перетворення для обчислення залишків є "м'яким" в тому сенсі, що характерна функція (багатоваріантного) розподілу залишків не може сильно відрізнятися від cf помилок .

На практиці, ми ніколи не потребують в тому , що помилки бути точно нормально розподілені, так що це несуттєвий питання. Набагато більше імпорту помилок полягає в тому, що (1) всі їхні очікування повинні бути близькими до нуля; (2) їх кореляція повинна бути низькою; і (3) повинно бути прийнятно невелика кількість зовнішніх значень. Щоб перевірити їх, ми застосовуємо різні випробування на придатність, кореляційні тести та тести, що випадають (відповідно) до залишків. Ретельне моделювання регресії завжди включає виконання таких тестів (які включають різні графічні візуалізації залишків, наприклад, що подаються автоматично методом R plotпри застосуванні до lmкласу).

Ще один спосіб дійти до цього питання - моделювання з гіпотезованої моделі. Ось декілька (мінімальний, разовий) Rкод для виконання роботи:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

Для випадку n = 32 цей накладений графік ймовірності з 99 наборів залишків показує, що вони, як правило, близькі до розподілу помилок (що є нормальним нормальним), оскільки вони рівномірно відщеплюються до опорної лінії :y=x

Малюнок для n = 32

У випадку n = 6 менший середній нахил у графіках ймовірності натякає на те, що залишки мають дещо меншу дисперсію, ніж помилки, але в цілому вони, як правило, розподіляються нормально, оскільки більшість з них відслідковує еталонну лінію досить добре (враховуючи мале значення ):n

Малюнок для n = 6


все стане цікавішим, якби ви додали, що говорять rexp(n)на місці, rnorm(n)коли ви генеруєте свої дані. Розподіл залишків наблизиться до нормальних, ніж ви думаєте.
StasK

Але якщо ми не вважаємо залишки нормальними, то як обчислюються р-значення отриманих оціночних коефіцієнтів? Що таке статистика тестів?
Ant Ant

5

yi=xiβ+ϵi
y=Xβ+ϵ
e=(IH)y
H=X(XX)1X
ei(1hii)ϵihijϵj,jijihij2+hii2=hiiO(1/n) ϵiei(1hii)ϵi

1

Якщо ми отримаємо щось, схоже на звичне розповсюдження, чи можемо ми припустити, що наш термін помилки має такий розподіл?

Я заперечую, що ви не можете, оскільки модель, яку ви тільки що підходили, є недійсною, якщо припущення про нормальність щодо помилок не дотримується. (у тому сенсі, що форма розподілу явно ненормальна, наприклад, Коші тощо)

Звичайний підхід замість того, щоб вважати розподілені помилки fe Poisson, полягає у виконанні певної форми перетворення даних, наприклад log y, або 1 / y з метою нормалізації залишків. (також справжня модель може бути не лінійною, що могло б зробити нанесені залишки дивно розподіленими, хоча вони насправді є нормальними)

Скажіть, якщо ми з'ясували, що залишки нагадують нормальний розподіл, чи є сенс вважати нормальність терміна помилки в чисельності населення?

Ви припустили нормальність помилок, як тільки підходили до регресії OLS. Чи потрібно вам наводити аргументи для цієї претензії, залежить від типу та рівня вашої роботи. (часто корисно подивитися, яка прийнята практика в цій галузі)

Тепер, якщо залишки фактично здаються нормально розподіленими, ви можете домашньої тварини на спині, оскільки ви можете використовувати це як емпіричний доказ ваших попередніх припущень. :)


0

Так, це розумно. Залишки - це помилки. Ви також можете переглянути звичайний QQ сюжет.


Так, правильно, "але як це можна виправдати?" Що нас запевняє, що емпіричний розподілу^i буде приблизним, що у?
whuber

7
This is pedantic but the residuals are not the errors. The residuals are the observed differences from the estimated model, yixiβ^. The errors are the differences from the true model yixiβ.
Macro

@whuber: I don't know what it is, but I'm assuming it's the same thing that justifies the sample x approximating the population X, right?
Wayne

1
@Wayne, I believe "it" refers to the procedure "if we found out that residuals resemble normal distribution, ... to assume normality of error terms in the population." I think you're basically right, but the subtlety is that the residuals are a product of both the sample and the method used to estimate the parameters. I find this to be a thoughtful and interesting question.
whuber

@whuber I would be interested in your take on studentized versus standardized versus raw residuals.
Michelle
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.