Як виконати залишковий аналіз для бінарних / дихотомічних незалежних предикторів при лінійній регресії?


11

Я виконую декілька лінійних регресій нижче в R, щоб передбачити прибуток на керований фонд.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Тут лише GRI та MBA є двійковими / дихотомічними предикторами; решта предикторів безперервні.

Я використовую цей код для створення залишкових графіків для бінарних змінних.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) 

Моє запитання: Я знаю, як перевірити залишкові графіки для безперервних предикторів, але як ви перевіряєте припущення про лінійну регресію, таку як гомоскедастичність, коли незалежна змінна є двійковою?

Залишкові сюжети:

Залишкова ділянка для GR1 Залишковий сюжет для MBA

Відповіді:


8

@NickCox зробив хорошу роботу, розмовляючи про покази залишків, коли у вас є дві групи. Дозвольте мені вирішити деякі явні питання та неявні припущення, що лежать за цією ниткою.

Питання задає питання: "як ви перевіряєте припущення про лінійну регресію, таку як гомоскедастичність, коли незалежна змінна є двійковою?" У вас є модель множинної регресії. Модель (множинної) регресії передбачає, що існує лише один термін помилки, який є постійним скрізь. Немає сенсу (і вам не доведеться) перевіряти наявність гетероседастичності для кожного прогноктора окремо. Ось чому, коли ми маємо множину регресійну модель, ми діагностуємо гетеросцедастичність з графіків залишків проти прогнозованих значень. Напевно, найбільш корисною для цієї мети є графік розміщення в масштабі (його також називають "рівнем розповсюдження"), який є графіком квадратного кореня абсолютного значення залишків проти передбачуваних значень. Щоб побачити приклади,Що означає наявність «постійної дисперсії» в моделі лінійної регресії?

Аналогічно, не потрібно перевіряти залишки для кожного прогноктора на нормальність. (Я чесно навіть не знаю, як це буде працювати.)

Що ви можете зробити з графіками залишків проти окремих прогнозів, це перевірити, чи правильно вказана функціональна форма. Наприклад, якщо залишки утворюють параболу, в даних, які ви пропустили, є деяка кривизна. Щоб побачити приклад, подивіться другий сюжет у відповіді @ Glen_b тут: Перевірка якості моделі в лінійній регресії . Однак ці питання не стосуються двійкового предиктора.

Для чого це варто, якщо у вас є лише категоричні прогнози, ви можете перевірити на гетероседастичність. Ви просто використовуєте тест Левене. Я обговорюю це тут: чому тест Левене на рівність дисперсій, а не відношення F? У R ви використовуєте ? LeveneTest з автомобільного пакета.


Редагувати: Щоб краще проілюструвати те, що перегляд графіку залишків та індивідуальної змінної прогнозованої форми не допомагає, коли у вас є модель множинної регресії, розгляньте цей приклад:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

З процесу генерації даних видно, що гетероскедастичності немає. Давайте розглянемо відповідні сюжети моделі, щоб побачити, чи передбачають вони проблематичну гетероседастичність:

введіть тут опис зображення

Ні, нема чого хвилюватися. Однак давайте подивимося на графік залишків проти індивідуальної змінної бінарного предиктора, щоб побачити, чи схоже на те, чи існує там гетероскедастичність:

введіть тут опис зображення

О, це, схоже, може виникнути проблема. З процесу генерування даних ми знаємо, що гетероскедастичності немає, і основні сюжети для дослідження цього не виявилися, і що тут відбувається? Можливо, ці сюжети допоможуть:

введіть тут опис зображення

x1і x2не є незалежними одне від одного. Більше того, спостереження там x2 = 1, де знаходяться крайні межі. У них більше важелів, тому їх залишки в природі менше. Тим не менш, гетероскедастичності немає.

Повідомлення "Прийміть додому": Найкраще ставити діагноз лише гетероскедастичність з відповідних ділянок (залишки проти пристосованого сюжету та графік рівня розповсюдження).


Дякую! З тієї ж регресії, яку я робив, я виявив, що Залишковий Vs Y є гомоскедастичним, але коли я перевірив Залишковий показник Vs (незалежний), він був формою воронки. Тож мені потрібно зробити певну трансформацію, щоб виправити це право? Тоді в цьому контексті просто хотілося зрозуміти, чому ви згадали, що перевірка залишкової незалежної змінної Vs не потрібна?
GeorgeOfTheRF

@ mrcet007, ні вам не потрібна трансформація. Якщо результат проти встановленого не демонструє гетероседастичності, ви все в порядку. Можливо, вам допоможе ілюстрація. Я відредагував свою відповідь, щоб додати демонстрацію.
gung - Відновіть Моніку

Чи можете ви перевірити це посилання people.duke.edu/~rnau/testing.htm . Він говорить також перевірити залишкову Vs незалежну змінну також. Просто ділитися заради обговорень. Чи можете ви прокоментувати це? Що я думав, нам потрібно завжди перевіряти прогнозовані залишкові VS, а також залишкові проти незалежних. гомоседастичність (постійна дисперсія) помилок (а) проти часу (у випадку даних часових рядів) (б) проти прогнозів (с) проти будь-якої незалежної змінної
GeorgeOfTheRF

Мій коментар полягає в тому, що я запропонував вам обидві причини, чому ви дивитесь на залишкові та передбачувані графіки, щоб перевірити наявність гетероседастичності, і показав вам приклад того, як перегляд графіків залишків проти IV може звести вас з глузду. Я не знаю, що ще можна сказати.
gung - Відновити Моніку

6

Це правда, що звичайні залишкові ділянки важче працювати в цьому випадку: може бути (набагато) складніше зрозуміти, чи розподіли приблизно однакові. Але тут є прості альтернативи. Ви просто порівнюєте два дистрибутиви, і є багато хороших способів зробити це. Деякі можливості - це бічні або накладені квантильні графіки, гістограми або графічні графіки. Мій власний забобон полягає в тому, що сюжетні коробки без прикрас тут часто використовуються надто часто: вони, як правило, придушують деталі, про які ми повинні хотіти, навіть якщо ми часто можемо відкинути це як неважливе. Але ви можете з'їсти свій торт і його мати.

Ви використовуєте R, але нічого статистичного у вашому питанні не стосується R. Тут я використав Stata для регресії на одному бінарному предикторі, а потім розгорнув квантильні графіки, порівнявши залишки для двох рівнів прогноктора. Практичний висновок у цьому прикладі полягає в тому, що розподіли приблизно однакові.

введіть тут опис зображення

1/43/4

Примітка. Див. Також Як представити сюжет коробки з надзвичайною формою? включаючи приклад @ Glen_b подібних сюжетів із використанням R. Такі сюжети повинні бути простими у будь-якому гідному програмному забезпеченні; якщо ні, то ваше програмне забезпечення не гідне.


+1 Красиво. Чи вважаєте ви, що тут є роль для тестування гіпотез щодо залишків?
Олексій

@gung Я змінив вашу редакцію. Оригінал, очевидно, був недостатньо зрозумілий, якщо ви неправильно його зрозуміли.
Нік Кокс

2
@Alexis Дякую! Я задоволений думкою про те, що гіпотеза про рівне розсіювання в цьому випадку неформально підтримується графіком. Я не з школи думки, що кожен невеликий крок в аналізі повинен бути освячений значенням P. На жаль, бути впевненим, що ви стрибаєте правильно, ніколи не буває легко, але я б на практиці розважав і інші моделі, якби я сумнівався. Ось приклад просто придуманий для питання, а не є частиною серйозного аналізу.
Нік Кокс

Мої вибачення, Нік. Я неправильно зрозумів суть цієї фрази. Я думав, що це помилка. Зараз це зрозуміліше.
gung - Відновіть Моніку

1
@whuber Це добре мені. Деякі люди вважають їх заплутаними, або так мені кажуть.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.