Все залежить від того, як ви оцінюєте параметри . Зазвичай оцінювачі лінійні, що означає, що залишки є лінійними функціями даних. Коли помилки є нормальний розподіл, то так роблять дані, звідки так що невязки ˙U I ( I індекси Міон даних, звичайно).uiu^ii
Можливо (і логічно можливо), що коли залишки мають приблизно нормальний (однофакторний) розподіл, то це виникає внаслідок ненормального розподілу помилок. Однак при найменшій квадратиці (або максимальній ймовірності) методики оцінки лінійне перетворення для обчислення залишків є "м'яким" в тому сенсі, що характерна функція (багатоваріантного) розподілу залишків не може сильно відрізнятися від cf помилок .
На практиці, ми ніколи не потребують в тому , що помилки бути точно нормально розподілені, так що це несуттєвий питання. Набагато більше імпорту помилок полягає в тому, що (1) всі їхні очікування повинні бути близькими до нуля; (2) їх кореляція повинна бути низькою; і (3) повинно бути прийнятно невелика кількість зовнішніх значень. Щоб перевірити їх, ми застосовуємо різні випробування на придатність, кореляційні тести та тести, що випадають (відповідно) до залишків. Ретельне моделювання регресії завжди включає виконання таких тестів (які включають різні графічні візуалізації залишків, наприклад, що подаються автоматично методом R plot
при застосуванні до lm
класу).
Ще один спосіб дійти до цього питання - моделювання з гіпотезованої моделі. Ось декілька (мінімальний, разовий) R
код для виконання роботи:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
Для випадку n = 32 цей накладений графік ймовірності з 99 наборів залишків показує, що вони, як правило, близькі до розподілу помилок (що є нормальним нормальним), оскільки вони рівномірно відщеплюються до опорної лінії :y=x
У випадку n = 6 менший середній нахил у графіках ймовірності натякає на те, що залишки мають дещо меншу дисперсію, ніж помилки, але в цілому вони, як правило, розподіляються нормально, оскільки більшість з них відслідковує еталонну лінію досить добре (враховуючи мале значення ):n