Який коефіцієнт інфляції дисперсії я повинен використовувати:


30

Я намагаюся інтерпретувати дисперсії коефіцієнтів інфляції з використанням vifфункції в пакеті R car. Функція друкує як узагальнений і . Відповідно до файлу довідки , це останнє значенняVIFGVIF1/(2df)

Для коригування розмірності довірчого еліпсоїда функція також друкує GVIF ^ [1 / (2 * df)], де df - ступені свободи, пов'язані з терміном.

Я не розумію значення цього пояснення у довідковому файлі, тому я не впевнений, чи слід використовувати або . Для моєї моделі ці два значення сильно відрізняються (максимум становить ~ ; максимум - ~ ).GVIFGVIF1/(2df)GVIF60GVIF1/(2df)3

Невже хтось міг би пояснити мені, яким саме я повинен користуватися, і що мається на увазі під коригуванням виміру довірчого еліпсоїда?

Відповіді:


25

Жорж Монетт і я представили GVIF у праці "Узагальнена діагностика колінеарності", JASA 87: 178-183, 1992 ( посилання ). Як ми пояснили, GVIF представляє квадратне відношення гіпероб'ємних еліпсоїдів спільної довіри для підмножини коефіцієнтів до "утопічного" еліпсоїда, яке було б отримано, якби регресори цього підмножини не співвідносилися з регресорами в комплементарному підмножині. Що стосується одного коефіцієнта, то це спеціалізується на звичайному VIF. Щоб зробити GVIF порівнянними за розмірами, ми запропонували використовувати GVIF ^ (1 / (2 * Df)), де Df - кількість коефіцієнтів у підмножині. Фактично це зводить GVIF до лінійної міри, а для VIF, де Df = 1, пропорційний інфляції за рахунок колінеарності в довірчому інтервалі для коефіцієнта.


3
Ласкаво просимо на наш сайт! Ми будемо чесні, якщо ви зареєструєте свій обліковий запис і завітаєте раз у раз. Одна невеличка примітка щодо ведення господарства: Вам не потрібно підписувати свої повідомлення, ваш ідентифікатор із посиланням на вашу сторінку користувача автоматично додається до кожної вашої відповіді.
gung - Відновіть Моніку

24

Я зіткнувся з точно таким же питанням і намагався пройти шлях. Дивіться мою детальну відповідь нижче.

Перш за все, я знайшов 4 варіанти отримання подібних значень VIF в R:

corvifкоманда з пакету AED,

vif команда з автомобільного пакета,

vif команда з пакету rms,

vif команда з пакету DAAG.

Використання цих команд на наборі предикторів, що не включає жодних факторів / категоричних змінних або поліноміальних термінів, йде вперед. Усі три команди дають однаковий числовий вихід, навіть незважаючи наcorvif команда з пакету AED позначає результати як GVIF.

Однак, як правило, GVIF грає лише для факторів та поліноміальних змінних. Змінні, для яких потрібен більше 1 коефіцієнт і, отже, більше 1 ступеня свободи, зазвичай оцінюються за допомогою GVIF. Для одно коефіцієнтних умов VIF дорівнює GVIF.

Таким чином, ви можете застосувати стандартні правила щодо того, чи може бути колінеарність проблемою, наприклад, поріг 3, 5 або 10. Однак можна застосовувати певну обережність (див. Http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf ).

У випадку багатокоефіцієнтних термінів, наприклад, наприклад, категоричних предикторів, 4 пакети дають різні результати. Thevif команди з середньоквадратичних і пакетів Daag виробляють значення VIF, в той час як дві інші значень виробляють GVIF.

Давайте спочатку подивимося на значення VIF із пакетів rms та DAAG:

TNAP     ICE     RegB    RegC    RegD    RegE

1.994    2.195   3.074   3.435   2.907   2.680

TNAP і ICE - неперервні предиктори, а Reg - категоріальна змінна, представлена ​​манекенами RegB до RegE. У цьому випадку RegA є базовою лінією. Усі значення VIF досить помірні і зазвичай не варто хвилюватися. Проблема з цим результатом полягає в тому, що на нього впливає базова лінія категоріальної змінної. Щоб бути впевненим у відсутності значення VIF вище прийнятного рівня, необхідно було б повторити цей аналіз для кожного рівня категоріальної змінної, що є базовою. У цьому випадку п’ять разів.

Застосовуючи corvifкоманду з пакета AED або vifкоманду з автомобільного пакета, виробляються значення GVIF:

     |  GVIF     | Df | GVIF^(1/2Df) |  

TNAP | 1.993964  | 1  | 1.412078     |
ICE  | 2.195035  | 1  | 1.481565     | 
Reg  | 55.511089 | 5  | 1.494301     |

GVIF розраховується для наборів пов'язаних регресорів, таких як набір фіктивних регресорів. Для двох безперервних змінних TNAP та ICE це те саме, що і раніше значення VIF. Для категоричної змінної Reg тепер ми отримуємо одне дуже високе значення GVIF, навіть якщо значення VIF для одиничних рівнів категоріальної змінної були всі помірні (як показано вище).

ГVЯЖ(1/(2×Df))ГVЯЖ(1/(2×Df))значення категоріальної змінної є аналогічним заходом для зменшення точності оцінки коефіцієнтів завдяки колінеарності (навіть не готові до цитування також дивіться на http://socserv2.socsci.mcmaster.ca/jfox/papers/linear- моделі-проблеми.pdf ).

GVIF(1/(2×Df))ГVЯЖ(1/(2×Df))

ГVЯЖ(1/(2×Df))GVIF(1/(2×Df))GVIF2(1/(2×Df))<2


Ласкаво просимо на сайт, @JanPhilippS. Це здається настільки ж новим питанням, як відповідь на питання ОП. Будь ласка, використовуйте лише поле "Ваша відповідь" для надання відповідей. Якщо у вас є власне запитання, натисніть [ASK QUESTION]вгорі і задайте його там, тоді ми зможемо вам допомогти належним чином. Оскільки ви тут новачок, ви можете скористатися нашою екскурсією , яка містить інформацію для нових користувачів.
gung - Відновіть Моніку

2
Ну, це насправді не нове питання. Швидше детальна відповідь.
Ян Філіп S

1
@JanPhilippS, дякую за посилання на джерела для подальшого читання. Я думаю, що ваш пост здавався якісною відповіддю, яка дозволила дещо замислитися над станом справ.
timothy.s.lau

6

Fox & Monette (оригінальне посилання на GVIF, GVIF ^ 1 / 2df) пропонують взяти GVIF потужністю 1 / 2df, що робить значення GVIF порівнянним за різною кількістю параметрів. "Аналогічно прийому квадратного кореня звичайного коефіцієнта дисперсії-інфляції" (від An R і S-Plus Companion до прикладної регресії Джона Фокса). Так що так, квадратик та застосування звичного VIF "правила великого пальця" здається розумним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.