VIF, індекс стану та власні значення


15

Наразі я оцінюю багатоколірність у своїх наборах даних.

Які порогові значення VIF та індекс стану нижче / вище говорять про проблему?

VIF: Я чув, що VIF - це проблема.10

Після видалення двох проблемних змінних, VIF становить для кожної змінної. Чи потребують змінних більше лікування чи цей VIF здається нормальним?3,96

Індекс стану: я чув, що індекс стану (CI) 30 або більше є проблемою. Моя найвища ІС - 16,66. Це проблема?

Інші питання:

  • Чи є інші дози / донти, які потрібно врахувати?
  • Чи є ще якісь речі, які мені потрібно пам’ятати?

1
Проясніть, будь ласка, питання. Зокрема, це були деякі коментарі раніше: Від @chl - "ви повинні розглянути можливість написання чітких питань (вони цікаві самостійно), з одним остаточним питанням, і зарезервувати коментарі для додаткових відомостей, що стосуються вашого початкового питання, а не вгору ". Автор @shane - "Щодо цього поточного питання: його можна також вдосконалити, оскільки йому задаються багато різних питань без чіткої загальної тематики. Вас цікавить мультиколінеарність взагалі? Або ви зацікавлені у ВІФ? Краще було б їх розірвати. для ясності ».

Відповіді:


5

Проблема мультиколінеарності добре вивчена у фактично більшості економетричних підручників. Більше того, є добра стаття у Вікіпедії, яка фактично резюмує більшість ключових питань.

ХТХ

  1. великі зміни в оцінках параметрів під час виконання регресії кочення або оцінок на менших підпроборах даних
  2. тЖ
  3. R2
  4. Індекс умови є альтернативою VIF, у вашому випадку ні VIF, ні CI не показують, що проблема не залишається, тому ви можете бути статистично задоволені цим результатом, але ...

певно, теоретично, оскільки може трапитися (і зазвичай це так), що вам потрібно, щоб усі змінні були присутні в моделі. Виключення відповідних змінних (проблема опущеної змінної) все одно зробить упереджені та непослідовні оцінки параметрів. З іншого боку, вас можуть змусити включати всі змінні фокусу просто тому, що ваш аналіз заснований на ньому. У підході до вибору даних, хоча ви більш технічні в пошуку найкращого підходу.

Тож пам’ятайте про альтернативи (якими я б користувався сам):

  1. отримати більше точок даних (нагадаємо, що вимоги VIF менші для більшого набору даних, а пояснювальні змінні, якщо вони повільно змінюються, можуть змінюватись для деяких вирішальних моментів часу або перерізу)
  2. пошук латентних факторів за допомогою основних компонентів (останні є ортогональними комбінаціями, тому не будують багатоколінійною побудовою, більше включають усі пояснювальні змінні)
  3. ridge-регресія (вона вводить невеликі зміщення в оцінки параметрів, але робить їх високостійкими)

Деякі інші хитрощі є у статті, що зазначається у вікі, зазначеній вище.


3

Я вважаю, що Белселі сказав, що ІС старше 10 років свідчить про можливу помірну проблему, тоді як понад 30 - більш серйозну.

Крім того, слід переглянути динаміку, поділену наборами змінних у високих показниках стану. Існує дискусія (чи я востаннє читав цю літературу) щодо того, чи була колінеарність, яка стосувалась однієї змінної та перехоплення, проблематичною чи ні, і чи центрирування змінної, що ображає, позбулася проблеми, чи просто перенесла її в інше місце.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.