У чому переваги різних підходів до виявлення колінеарності?


11

Я хочу виявити, чи колінеарність є проблемою в моїй регресії OLS. Я розумію, що коефіцієнти інфляції дисперсії та індекс стану є двома загальноприйнятими заходами, але мені важко знайти щось певне щодо достоїнств кожного підходу чи таких, якими мають бути оцінки.

Видатне джерело, яке вказує, який підхід робити та / або які оцінки підходять, було б дуже корисним.

Подібне запитання було задано на "Чи є причина віддати перевагу конкретному міру мультиколінеарності?" але я в ідеалі після посилання, яке можу навести.


4
Пам’ятайте, що колінеарність - це питання ступеня , тому навіть якщо ви знайдете текст, який дає приємне, вподобане число, це не те, що слід сприймати як важке відсічне значення для "без проблеми" проти "у нас є проблема ".
Срібна рибка

4
@Silverfish дає хороші поради. Belsley, Kuh і Welsch також підкреслюють, що колінеарність, навіть якщо вона присутня, не обов'язково шкідлива: ви повинні визначити, чи справді це викликає проблеми для вашого аналізу.
whuber

Відповіді:


11

Belsley, Kuh і Welsch - це текст, на який слід звернутися до такого питання. Вони включають широке обговорення старшої діагностики у розділі «Історична перспектива». Щодо VIF вони пишуть

... Якщо ми припускаємо , що дані були центрованими і масштабуються , щоб мати одиничну довжину, кореляційна матриця просто . ...XRXX

Ми розглядаємо . Діагональні елементи , часто називають коефіцієнтами інфляції дисперсії , а їх діагностичне значення випливає із співвідношення де - коефіцієнт множинної кореляції регресуючи на інших пояснювальних змінних. Очевидно, що високий VIF вказує на поблизу єдності, а значить, вказує на колінеарність. Таким чином, цей захід є деяким вживанням як загальна ознака колінеарності. Його слабкі місця, як і уR1=(XX)1R1riiVIFi

VIFi=11Ri2
Ri2XiRi2R, полягає у його нездатності розрізнити декілька співіснуючих близьких залежностей та у відсутності змістовної межі для розрізнення значень VIF, які можна вважати високими, та тих, які можна вважати низькими.

Замість аналізує (або ), BKW пропонує ретельне, контрольоване дослідження сингулярного розкладання . Вони мотивують це, демонструючи , що відношення найбільшого до найдрібніших сингулярних значень є числом обумовленості з і покажуть , як число обумовленості забезпечує (іноді жорстке) оцінки на поширенні обчислювальних помилок при розрахунку оцінок регресії. Вони продовжують спробувати приблизну декомпозицію відхилень оцінок параметрів на компоненти, пов'язані з сингулярними значеннями. Сила цього розкладання полягає в його здатності (в багатьох випадках) розкривати природуRR1XXβ^i колінеарності, а не просто вказівки на її наявність.

Усі, хто створив регресійні моделі із сотнями змінних, оцінять цю особливість! Одне програмне забезпечення говорить «ваші дані колінеарні, я не можу продовжувати» або навіть сказати «ваші дані колінеарні, я викидаю такі змінні». Це взагалі набагато корисніше, щоб можна було сказати "група змінних викликає нестабільності в обчисленнях: подивіться, яку з цих змінних можна зробити без чи врахувати виконання аналізу основних компонентів для зменшення їх кількості ".Xi1,,Xik

Зрештою, BKW рекомендує діагностувати колінеарність за допомогою

... наступна подвійна умова:

  1. Окреме значення, яке оцінюється як високий індекс стану, і яке пов'язане з
  2. Високі співвідношення дисперсії та дисперсії для двох або більше оцінених дисперсій коефіцієнта регресії.

Кількість індексів умов, які вважаються великими (скажімо, більшими, ніж ) у (1), визначає кількість близьких залежностей серед стовпців матриці даних , а величини цих високих показників стану забезпечують міру їх відносної «герметичності». " Крім того, визначення (2) великої дисперсійної декомпозиції (скажімо, більше ), пов'язаного з кожним високим показником умови, ідентифікує ті змінні, які беруть участь у відповідній близькій залежності, та величину цих пропорцій у поєднанні з високою індекс стану передбачає міру ступеня, до якої відповідна оцінка регресії була деградована наявністю колінеарності.30X0.5


10
  • Варіаційні коефіцієнти інфляції (VIF) легко зрозуміти. Регресуйте кожен ваш стовпчик матриці дизайну на всіх інших, зверніть увагу на цієї моделі, обчисліть , і там ви йдете. VIF з 10 означає, що ви можете пояснити 90% дисперсії одного прогноктора, використовуючи всі інші регресори. Зазвичай це використовується, як правило, поріг великого пальця для колінеарності.R21/(1R2)

    Тим не менш, VIF, як правило, реалізовані, не можуть сказати вам про колінеарність з перехопленням, оскільки перехоплення зазвичай беззвучно включається в ці "помічницькі" регресії. Крім того, якщо регресор має високий рівень ВІФ, ви не відразу знаєте, які інші регресори відповідають за колінеарність. Вам знадобиться переглянути стандартизовані коефіцієнти в регресних допомогах.

  • Індекси умов та пропорції коланеарності декомпозиції Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics: Identification of Impliency Data and Source of Collinenary . John Wiley & Sons, 1980) набагато важче зрозуміти. Раніше я працював з ними кілька років тому, але я не намагаюся пояснити їх тут, не отримуючи оновлення ;-)

    Ця діагностика дійсно дозволяють виявляти коллинеарности з перехопленням. І ви можете досліджувати пропорції розкладу колінеарності, щоб визначити, які інші регресори відповідають за одну колінеарність регресора.


Дякую - дуже корисно - чи випадково ви знаєте, що ви посилаєтесь на VIF, що перевищує 10 правил ... Я можу знайти багато конспектів лекцій про екон, але не можу знайти нічого опублікованого, що говорить, що .. .
kyrenia

@kyrenia "більше 10" - це далеко не єдиний поріг, який я бачив! Цікаво, чи є різниця між полями чи просто між авторами.
Срібна рибка

3
@Silverfish Однозначно є варіанти між полями. Мені сказали, що експериментальні дизайнери навчають, що ВІФ понад потрібно виправити! Для спостережних досліджень також має бути відмінність залежно від кількості регресорів: чим більше їх, тим більше ВІФ отримуватиметься лише через випадкові коливання. Із сотнями змінних у багатьох випадках вам просто доведеться миритися з VIF-кодом або більше. Імовірно, в таких випадках також є достатньо даних для компенсації такої інфляції. 1002100
whuber

@whuber Дякую за це. Це дуже цікаве спостереження і дуже актуальне для питання, поставленого ОП: зважаючи на важливість коментарів "другого рангу" в системі StackExchange, я думаю, ви повинні розглянути можливість включення цього до своєї чудової відповіді.
Срібна рибка

6

Для широких доступних посилань на цитування, книга Faraway на стор. 117 надає велике правило понад 30 для виявлення проблем на основі номерів умов, а Вступ до статистичного навчання , сторінка 101, говорить, що значення VIF вище 5 або 10 вказують на проблему. .

Напевно, більш важливим, ніж метод, який ви використовуєте для виявлення мультиколінеарності, буде те, як ви з цим поводитесь.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.