@NickCox зробив хорошу роботу, розмовляючи про покази залишків, коли у вас є дві групи. Дозвольте мені вирішити деякі явні питання та неявні припущення, що лежать за цією ниткою.
Питання задає питання: "як ви перевіряєте припущення про лінійну регресію, таку як гомоскедастичність, коли незалежна змінна є двійковою?" У вас є модель множинної регресії. Модель (множинної) регресії передбачає, що існує лише один термін помилки, який є постійним скрізь. Немає сенсу (і вам не доведеться) перевіряти наявність гетероседастичності для кожного прогноктора окремо. Ось чому, коли ми маємо множину регресійну модель, ми діагностуємо гетеросцедастичність з графіків залишків проти прогнозованих значень. Напевно, найбільш корисною для цієї мети є графік розміщення в масштабі (його також називають "рівнем розповсюдження"), який є графіком квадратного кореня абсолютного значення залишків проти передбачуваних значень. Щоб побачити приклади,Що означає наявність «постійної дисперсії» в моделі лінійної регресії?
Аналогічно, не потрібно перевіряти залишки для кожного прогноктора на нормальність. (Я чесно навіть не знаю, як це буде працювати.)
Що ви можете зробити з графіками залишків проти окремих прогнозів, це перевірити, чи правильно вказана функціональна форма. Наприклад, якщо залишки утворюють параболу, в даних, які ви пропустили, є деяка кривизна. Щоб побачити приклад, подивіться другий сюжет у відповіді @ Glen_b тут: Перевірка якості моделі в лінійній регресії . Однак ці питання не стосуються двійкового предиктора.
Для чого це варто, якщо у вас є лише категоричні прогнози, ви можете перевірити на гетероседастичність. Ви просто використовуєте тест Левене. Я обговорюю це тут: чому тест Левене на рівність дисперсій, а не відношення F? У R ви використовуєте ? LeveneTest з автомобільного пакета.
Редагувати: Щоб краще проілюструвати те, що перегляд графіку залишків та індивідуальної змінної прогнозованої форми не допомагає, коли у вас є модель множинної регресії, розгляньте цей приклад:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
З процесу генерації даних видно, що гетероскедастичності немає. Давайте розглянемо відповідні сюжети моделі, щоб побачити, чи передбачають вони проблематичну гетероседастичність:
Ні, нема чого хвилюватися. Однак давайте подивимося на графік залишків проти індивідуальної змінної бінарного предиктора, щоб побачити, чи схоже на те, чи існує там гетероскедастичність:
О, це, схоже, може виникнути проблема. З процесу генерування даних ми знаємо, що гетероскедастичності немає, і основні сюжети для дослідження цього не виявилися, і що тут відбувається? Можливо, ці сюжети допоможуть:
x1
і x2
не є незалежними одне від одного. Більше того, спостереження там x2 = 1
, де знаходяться крайні межі. У них більше важелів, тому їх залишки в природі менше. Тим не менш, гетероскедастичності немає.
Повідомлення "Прийміть додому": Найкраще ставити діагноз лише гетероскедастичність з відповідних ділянок (залишки проти пристосованого сюжету та графік рівня розповсюдження).