Коли можна говорити про колінеарність


16

У лінійних моделях нам потрібно перевірити, чи існує взаємозв'язок між пояснювальними змінними. Якщо вони співвідносяться занадто сильно, то виникає колінеарність (тобто змінні частково пояснюють одна одну). На даний момент я просто розглядаю парне співвідношення між кожною з пояснювальних змінних.

Питання 1: Що класифікується як занадто велика кореляція? Наприклад, чи є співвідношення Пірсона в 0,5 занадто багато?

Питання 2: Чи можемо ми повністю визначити, чи існує колінеарність між двома змінними на основі коефіцієнта кореляції чи це залежить від інших факторів?

Питання 3: Чи додає графічна перевірка розсіювання двох змінних до того, що вказує коефіцієнт кореляції?


2
Колінеарність (сингулярність) серед 3+ змінних не зводиться лише до високих парних кореляцій. Шукайте на сайті питання з тегом "мультиколінеарність". Також рекомендую прочитати цю відповідь: stats.stackexchange.com/a/70910/3277 .
ttnphns

Відповіді:


15
  1. r=1.0r=.50r.95Який ефект має співвіднесення предикторів у моделі множинної регресії?

  2. r.95

  3. Завжди розумно дивитися на ваші дані, а не просто числові зведення / результати тестів. Канонічне посилання тут - квартет Анскомба .


3

Моє взяти на себе три питання:

Запитання 1 Що класифікується як занадто велика кореляція? Наприклад: кореляція груші в 0,5 - це занадто багато?

Багато авторів стверджують, що (багато-) колінеарність не є проблемою. Погляньте тут і тут на досить кислу думку з цього приводу. Суть полягає в тому, що мультиколінеарність не впливає на тестування гіпотез, крім того, що має менший (ефективний) розмір вибірки. Вам буде важко інтерпретувати коефіцієнти регресії, якщо, наприклад, ви зробите регресію, але ви не порушите жодного базового припущення, якщо ви вирішите це зробити.

Запитання 2 Чи можна повністю визначити, чи існує колінеарність між двома змінними на основі коефіцієнта кореляції чи це залежить від інших факторів?

Я думаю, що існує декілька способів вимірювання кореляції між двома змінними, від обчислення коефіцієнта кореляції Пірсона (якщо ви припускаєте лінійність, і, мабуть, ви це зробили), до рангового рівня , кореляції відстані і навіть проведення PCA у вашому наборі даних. Але я б залишив відповідь на це питання краще обізнаним людям, ніж я.

Питання 3 Чи додає графічна перевірка графіку розсіювання двох змінних до того, що вказує коефіцієнт кореляції?

ІМО, відповідь звук ні.


3
ІМХО, відповідь на (3) - навпаки, дуже сильний так: тоді як коефіцієнт кореляції може дати лише одну чисельну оцінку лінійності відносин, швидкий погляд на розсіювач дасть велику додаткову інформацію про це відносини, включаючи поведінку, якої не очікували раніше. Однак справжній інтерес до цього набору питань полягає в тому, як оцінити зв’язки між трьома або більше змінними (незважаючи на те, як (3) насправді було сформульовано), і в такому випадку навіть матриця розсіювання не розкриває все, як зазначає @ttnphns.
whuber

1
Що стосується (1), я читаю вашу посилання (на блог Дейва Гіла) по-різному: він стверджує, що формальне тестування мультиколінеарності є помилковим. Я не бачу, щоб він стверджував, що мультиколінеарність - це не проблема.
whuber

Моє розуміння відповіді Дейва Гіла полягає в тому, що єдиний спосіб, коли мультиколінеарність впливає на результати, буде через еквівалентний менший розмір вибірки. Тому, як не має сенсу тестувати на невеликий розмір вибірки, немає сенсу перевіряти вплив мультиколінеарності. Але я був би радий почути вашу думку з цього приводу, можливо, я його неправильно зрозумів.
pedrofigueira

Ну а необхідність більшого розміру вибірки може бути величезним наслідком для більшості досліджень! Більш тонкий ефект майжеколінеарності стосується побудови моделі та вибору змінних, як це обговорювалося ( серед іншого ) у таких потоках, як stats.stackexchange.com/questions/50537 та stats.stackexchange.com/a/28476/919 . Але давайте переконаємось, що ми говоримо про одне і те ж: Джайлс обговорює формальні тести мультиколінеарності, як ніби незалежні змінні були вибіркові вибірки. Тут, мабуть, проблема зосереджена на використанні мультиколінеарної діагностики для розуміння можливостей та обмежень моделі.
whuber

1

Поширений спосіб оцінки колінеарності - це коефіцієнти дисперсії дисперсії (VIFs). Цього можна досягти в R, використовуючи функцію 'vif' в пакеті 'автомобіль'. Це має перевагу перед переглядом лише співвідношень між двома змінними, оскільки одночасно оцінює кореляцію між однією змінною та рештою змінних у моделі. Потім вона дає вам єдиний бал для кожного прогноктора в моделі.

Як було сказано вище, немає жорсткого та швидкого відсічення, але результати VIF часто вирішуються проблематичними, коли вони становлять 5-10. Для цього я використовую спеціальні правила поля. Крім того, немає нічого обов'язково недійсного у використанні корельованих предикторів (до тих пір, поки вони не ідеально співвідносяться). Вам просто знадобиться більше даних, щоб розділити ефекти. Якщо у вас недостатньо даних, у оцінках параметрів корельованих прогнозів виникнуть великі невизначеності, і ці оцінки будуть чутливі до повторного відбору вибірки.

Щоб відповісти на ваші запитання конкретно:

  1. Не використовуйте коефіцієнти кореляції. використовувати VIF-моделі моделі з усіма предикторами та без взаємодій. VIFs 5-10 вказує на занадто велику кореляцію, ваше конкретне скорочення залежить від того, що вам потрібно зробити з моделлю.

  2. Це залежить від інших провісників у моделі, саме тому вигідно використовувати ВІФ.

  3. Ні! Статистичні дані краще оцінюють те, на що ти вдивляєшся із сюжетним графіком. Якщо не буде супер порушення припущень OLS під час регресу ваших прогнозів один проти одного.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.