Як боротися з високою кореляцією серед прогнозів при множинній регресії?


18

Я знайшов посилання в статті, яка виглядає так:

За даними Tabachnick & Fidell (1996), незалежні змінні з двоваріантною кореляцією більше, ніж 70, не повинні включатись у багаторазовий регресійний аналіз.

Проблема: Я використовував у дизайні множинних регресій 3 корельовані змінні> .80, VIF з приблизно .2 - .3, толерантність ~ 4- 5. Я не можу виключити жодну з них (важливі прогнози та результат). Коли я регресував результат на двох прогнозах, які співвідносилися в .80, вони залишалися обома значущими, кожен прогнозував важливі відхилення, і ці ж дві змінні мають найбільшу частку та коефіцієнти кореляції напівчастинної кореляції серед усіх 10 включених змінних (5 контролів).

Питання: Чи дійсна моя модель, незважаючи на високі співвідношення? Будь-які посилання дуже вітаються!


Дякую за відповіді!

Я не використовував Табачніка та Фіделла в якості керівництва, я знайшов цю посилання в статті, що стосується високої колінеарності серед прогнозів.

Таким чином, я маю занадто мало випадків для кількості предикторів у моделі (багато категоричних, фіксованих контрольних змінних-манекен - вік, термін перебування, стать тощо) - 13 змінних для 72 випадків. Індекс стану - 29, з усіма елементами управління та ~ 23 без них (5 змінних).

Я не можу скинути будь-яку змінну або використовувати факторний аналіз для їх поєднання, оскільки теоретично вони мають сенс самостійно. Занадто пізно отримати більше даних. Оскільки я провожу аналіз у SPSS, можливо, найкраще було б знайти синтаксис регресії хребта (хоча я цього раніше не робив і інтерпретація результатів була б для мене новою).

Якщо це має значення, коли я проводив поступову регресію, ті самі 2 сильно корельовані змінні залишилися єдиними значущими прогнокторами результату.

І я досі не розумію, чи мають часткові кореляції, які є високими для кожної з цих змінних, як пояснення того, чому я їх утримував у моделі (якщо регресія хребта не може бути виконана).

Чи можете ви сказати, що "діагностика регресії: виявлення впливових даних та джерел колінеарності / Девід А. Белслі, Едвін Кух та Рой Е. Вельш, 1980" буде корисною для розуміння мультиколінеарності? Чи можуть бути корисні інші посилання?


2
Для чіткого прикладу цієї ситуації дивіться аналіз 10 IV на сайті stats.stackexchange.com/a/14528 . Тут усі ІВ сильно корелюються (близько 60%). Але якби ви виключили їх усіх, у вас нічого не залишилося б! Часто буває так, що ви не можете скинути жодну з цих змінних. Це робить рекомендацію T&F нездійсненною.
whuber

Дійсно, існує ряд вимов у Табачніка та Фіделла, які я вважаю принаймні дещо сумнівними ... лише тому, що щось надруковано в книзі, це не означає, що це завжди має сенс.
Glen_b -Встановіть Моніку

Відповіді:


20

Ключова проблема - не кореляція, а колінеарність (див., Наприклад, твори Белслі). Це найкраще перевірити, використовуючи індекси умов (доступні в R, SASймовірно , також і в інших програмах. Кореляція не є ні необхідною, ні достатньою умовою колінеарності. Індекси умов понад 10 (за Беллі) вказують на помірну колінеарність, понад 30 важких, але це також залежить про те, які змінні беруть участь у колінеарності.

Якщо ви виявите високу колінеарність, це означає, що ваші оцінки параметрів нестабільні. Тобто, невеликі зміни (іноді на 4-й значущій цифрі) ваших даних можуть спричинити великі зміни у ваших оцінках параметрів (іноді навіть змінювати їх знак). Це погана річ.

Засоби захисту: 1) Отримання більшої кількості даних 2) Випадання однієї змінної 3) Комбінування змінних (наприклад, з частковими найменшими квадратами) та 4) Виконання регресії хребта, що дає упереджені результати, але зменшує відхилення від оцінок.


Табачнік і Фіделл написали приємну багатоваріантну книгу з суспільствознавства. Вони не статистики, але їх знання про багатоваріантність - це дуже добре. Але я думаю, що вони можуть створити основні правила для спрощення та можуть пропустити статистичні тонкощі. Тож я б більше покладався на те, що Петро говорить у своїх відповідях, ніж на їхній роботі.
Майкл Р. Черник

Дякую @MichaelChernick. Я фактично написав свою дисертацію про колінеарну діагностику для множинної регресії.
Пітер Флом - Відновити Моніку

Я припускаю, що ти такий же старший, як я, і тому твій твір з’явився після роботи Белслі, Ку і Вельш та Кука. Я знаю, що робота Кука в основному стосувалася інших діагностичних питань (важелів та ненормативності), але чи робив він щось з питань мультиколінеарності? Звичайно, концепція регресії хребта навіть сходить до мого часу
Майкл Р. Черник

1
@ Peter Flom: Чому кореляція не є ні необхідною, ні достатньою умовою колінеарності? Ви маєте на увазі нелінійну кореляцію?
Джуліан

5
Це не обов'язково, тому що, якщо існує велика кількість змінних, всі пари можуть бути лише трохи співвіднесені, але сума їх ідеально колінеарна. Це недостатньо, оскільки є випадки, коли досить висока кореляція не приносить клопітної колінеарності за показниками умови
Пітер Флом - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.