У якому порядку слід робити лінійну регресійну діагностику?


24

При лінійному регресійному аналізі ми аналізуємо чужих людей, досліджуємо мультиколінеарність, тестуємо гетеросцедастику.

Питання: Чи є наказ застосувати їх? Я маю на увазі, чи треба нам спочатку проаналізувати людей, а потім вивчити мультиколінеарність? Або назад?

Чи є щодо цього правило?


2
Деякі дуже грубі правила: слід вивчити колінеарність, перш ніж робити якісь пристосування. Якщо ви виявите, що він присутній, вам слід (а) скористатися методом, який обробляє колінеарність, (b) видалити колінеарні ознаки, або (c) перетворити ваші функції (наприклад, за допомогою PCA). Після того, як ви встановили модель, ви можете шукати гетероседастичність у залишках. Загалом, якщо ви робите прогнозну модель, ви не повинні знімати сторонніх людей. Натомість скористайтеся методом, який є надійним для присутності людей, що переживають люди.
Кріс Тейлор

1
Як найкраще досліджувати колінеарність? Дивлячись на позадіагональні елементи кореляційної матриці предикторів?
miura

1
Найкращий спосіб дослідження колінеарності - це пояснення показників і пропорційність дисперсії. Висока кореляція не є ні необхідною, ні достатньою умовою колінеарності.
Пітер Флом - Відновіть Моніку

Відповіді:


28

Процес є ітераційним, але існує природний порядок:

  1. Спершу вам слід потурбуватися про умови, які спричиняють відверті числові помилки . Мультиколінеарність є однією з таких, оскільки вона може створити нестабільні системи рівнянь, що потенційно може призвести до відвертих неправильних відповідей (до 16 знаків після коми ...) Будь-яка проблема тут зазвичай означає, що ви не можете продовжувати, поки вона не буде виправлена. Мультиколінеарність зазвичай діагностується за допомогою варіаційних коефіцієнтів інфляції та аналогічного дослідження «матриці капелюхів». Додаткові перевірки на цьому етапі можуть включати оцінку впливу будь-яких відсутніх значень у наборі даних та перевірку ідентифікованості важливих параметрів. (Відсутні комбінації дискретних незалежних змінних тут іноді можуть спричинити проблеми.)

  2. Далі потрібно потурбуватися, чи відображає вихід більшість даних чи чутливий до малого підмножини. В останньому випадку все інше, що ви робите згодом, може ввести в оману, тому цього слід уникати. Процедури включають перевірку екслідерів та важелів . (Дані з високим важелем можуть бути не зовнішніми, але навіть тому вони можуть надмірно впливати на всі результати.) Якщо надійна альтернатива процедурі регресії існує, це вдалий час для її застосування: перевірте, чи вона дає подібні результати та використовувати його для виявлення зовнішніх значень.

  3. Нарешті, досягнувши чисельно стабільної ситуації (щоб ви могли довіряти обчисленням) і яка відображає повний набір даних, ви переходите до вивчення статистичних припущень, необхідних для правильної інтерпретації результатів . В першу чергу це стосується орієнтовної уваги - у грубому порядку важливості - на розподіли залишків (включаючи гетероцедастичність, але також поширюючись на симетрію, форму розподілу, можливу кореляцію з передбачуваними значеннями чи іншими змінними та автокореляцію), корисність (включаючи можлива потреба в умовах взаємодії), чи повторно виражати залежну змінну, чи повторно виражати незалежні змінні.

На будь-якому етапі, якщо щось потрібно виправити, то розумно повернутися до початку. Повторіть стільки разів, скільки потрібно.


2
Я фактично вважаю за краще використовувати індекси стану, а не VIF. Я зробив свою дисертацію з цих питань, деякий час назад.
Пітер Флом - Відновіть Моніку

1
@ Петер Добрий момент. Я також віддаю перевагу індексам стану, але мені здається, що ВІФ зараз дуже популярні.
whuber

Але я пішов з вашого коментаря раніше сьогодні. Я колись консультувався зі статистиком під час мого постдокументу щодо певних проблем щодо мультиколінеарності. Він висловив думку про те, що в залежності від характеру IV в регресії колінеарність може вважатися структурно частиною моделюваних явищ. Я, мабуть, маніпулюю його точною мовою, і мені доведеться копатися, щоб навіть знову знайти його ім’я, але чи знаєте ви якісь тексти, які мотивували б нюансовані міркування про мультиколінеарність у цих напрямках? Просто випадковий запит. :)
Олексій

@ Алексис Це здається, що статистик має нюансовану та складну концепцію мультиколінеарності. Я не можу придумати жодного підручника, який би це яскраво виражав.
whuber

Мені просто доведеться його відстежити і запитати про це. :)
Олексій

3

Я думаю, це залежить від ситуації. Якщо ви не очікуєте особливих проблем, ви, ймовірно, можете перевірити їх у будь-якому порядку. Якщо ви очікуєте, що люди, які випадають за людину, і можуть мати причину видалити їх після їх виявлення, тоді спочатку перевірте, чи немає цих людей. Інші проблеми з моделлю можуть змінитися після зняття спостережень. Після цього порядок між мультиколінеарністю та гетероскедастичністю не має значення. Я погоджуюсь з Крісом, що не можна видаляти залишків самовільно. Потрібно мати привід вважати, що спостереження неправильні.

Звичайно, якщо ви дотримуєтесь мультиколінеарності чи гетеросцедастичності, можливо, вам знадобиться змінити свій підхід. Проблема мультиколінеарності спостерігається в коваріаційній матриці, але існують специфічні діагностичні тести на виявлення мультиколінеарності та інші проблеми, такі як точки важеля, дивіться у книзі « Регресія діагностики» Белслі, Ку і Уельша або в одній із регресійних книг Денніса Кука .


9
Майкл, чи надалі ви можете використовувати параметри форматування? (правильна клавіша для вставки посилань - ctrl-l, а не ctrl-c).
user603
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.