Чи є причина віддати перевагу конкретній мірі мультиколінеарності?


22

Працюючи з багатьма вхідними змінними, ми часто стурбовані мультиколінеарністю . Існує ряд заходів мультиколінеарності, які використовуються для виявлення, продумування та / або спілкування мультиколінеарності. Деякі поширені рекомендації:

  1. Множинний для конкретної змінної Rj2
  2. Допуск для певної змінної 1-Rj2
  3. Коефіцієнт інфляції дисперсії для певної змінної VIF=1толерантність
  4. Номер умови матриці проектування в цілому:

    макс (власне значення (X'X))хв (власне значення (X'X))

(Є деякі інші варіанти, про які йшлося в статті у Вікіпедії, і тут на SO в контексті Р.)

Той факт, що перші три є ідеальною функцією один одного, говорить про те, що єдиною можливою чистою перевагою між ними була б психологічна. З іншого боку, перші три дозволяють вивчати змінні індивідуально, що може бути перевагою, але я чув, що метод числення умови вважається найкращим.

  • Це правда? Найкраще для чого?
  • Чи є число умови досконалою функцією ? (Я думаю, це було б.) Rj2
  • Чи виявляють люди, що одне з них найлегше пояснити? (Я ніколи не намагався пояснити ці цифри поза класом, я просто даю вільний, якісний опис мультиколінеарності.)

Я опублікував відповідне додаткове запитання з відповідями на те, що доповнює те, що вже тут: stats.stackexchange.com/questions/173665/…
kyrenia

Відповіді:


15

Ще в кінці 90-х років я робив дисертацію про колінеарність.

Мій висновок полягав у тому, що показники стану найкращі.

Основна причина полягала в тому, що замість того, щоб дивитись на окремі змінні, вона дозволяє переглядати набори змінних. Оскільки колінеарність - це функція множин змінних, це добре.

Також результати мого дослідження в Монте-Карло показали кращу чутливість до проблемної колінеарності, але я вже давно забув деталі.

З іншого боку, це, мабуть, найскладніше пояснити. Багато людей знають, що таке . Лише невелика частина цих людей чула про власні цінності. Однак, коли я використовував індекси стану як діагностичний інструмент, мене ніколи не просили пояснення.R2

Щоб дізнатися більше про це, перегляньте книги Девіда Беслі. Або, якщо ви дійсно хочете, ви можете отримати мою дисертацію Мультиколінеарність діагностики для множинної регресії: дослідження в Монте-Карло


1
Тож ідея тут полягає в тому, що, дивлячись на ВІФ, ви можете помилково зробити висновок, що мультиколінеарність не є проблемою, але якби ви подивились номер умови, ви мали б більше шансів зробити правильний висновок? Можливо, щось на кшталт тесту з більшою статистичною потужністю?
gung - Відновити Моніку

4
+1. На щастя, для пояснення номера умови у нас вже є непомітна нитка на цьому сайті: це максимальне спотворення, яке знайдено в описі другого порядку змінних конструкцій як хмара точок. Чим більше спотворення, тим більше точок, як правило, лежать у підпросторі. Це геометричне розуміння також показує, чому кондиціонування сконцентрованої матриці дизайну краще, ніж у самої матриці необробленої конструкції.
whuber

1
Ну, важко точно визначити, що таке «правильний» висновок; але це повинно мати щось спільне з невеликими змінами в даних, що призводять до великих змін у виході. Як я пам’ятаю, показники стану були безпосередньо пов’язані з цим. Але найважливішим було отримання пропорцій дисперсії, які дозволяють бачити набори змінних та ступінь їх колінеарності. (Звичайно, все, що було 14 років тому .... але я не думаю, що все змінилося. Заходи однакові. Але моя пам'ять може бути не ідеальною).
Пітер Флом - Відновіть Моніку

3
Гунг, одним із ключових моментів є те, що номер умови не залежить від координат: він залишається незмінним при (ортогональних) лінійних рекомбінаціях даних. Таким чином, він не може висловити нічого про окремі змінні, але він повинен захоплювати властивість всієї колекції. Використання його тим самим частково захищає вас від введення в оману способу вираження змінних.
whuber

1
Я занадто заграв, щоб закінчити вашу дисертацію, але поки що це було дуже корисно. Знову дякую.
gung - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.