Чи існує інтуїтивне пояснення, чому мультиколінеарність - це проблема лінійної регресії?


85

У вікі обговорюються проблеми, які виникають, коли мультиколінеарність є проблемою лінійної регресії. Основна проблема полягає в тому, що мультиколінеарність призводить до нестабільних оцінок параметрів, що ускладнює оцінку впливу незалежних змінних на залежні змінні.

Я розумію технічні причини, що стоять перед проблемами (можливо, не вдасться перевернути , неправильно обумовлені тощо), але я шукаю більш інтуїтивне (можливо, геометричне?) Пояснення цього питання.X XXXXX

Чи є геометрична чи, можливо, якась інша форма легко зрозумілого пояснення того, чому мультиколінеарність проблемна в умовах лінійної регресії?


4
Дійсно велике питання. Найкращий спосіб зрозуміти щось з різних напрямків пояснення.
Тал Галілі

1
Дивіться також пов'язане питання та візуальне пояснення stats.stackexchange.com/q/70899/3277
ttnphns

Відповіді:


89

Розглянемо найпростіший випадок, коли регресує проти і і де і дуже позитивно корелюють. Тоді ефект на важко відрізнити від ефекту на , так як будь-яке збільшення має тенденцію бути пов'язано зі збільшенням .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Ще один спосіб поглянути на це - розглянути рівняння. Якщо запишемо , то коефіцієнт - це збільшення для кожного одиничного збільшення , утримуючи постійною. Але на практиці часто неможливо утримати постійною, і позитивна кореляція між і означає, що одиничне збільшення зазвичай супроводжується деяким збільшенням одночасно.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Аналогічне, але більш складне пояснення стосується інших форм мультиколінеарності.


20
+1 Вкрай патологічний випадок, коли виділяє це ще більше. і було б невідрізним. Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 Мені подобається ця відповідь, оскільки одне з найпоширеніших довідкових запитань - чому тоді і . Висновок повинен враховувати реальні входи. b 2 < 0b1>0b2<0
muratoa

29

Я їв суші один раз і думав, що це може зробити добру інтуїтивну демонстрацію недоброякісних проблем. Припустимо, ви хотіли показати комусь літак, використовуючи дві палички, що торкаються їх основи.

Ви, мабуть, тримали палички ортогональні одна до одної. Вплив будь-якого тремтіння ваших рук на літак призводить до того, що він трохи хитається навколо того, що ви сподівалися показати людям, але після того, як спостерігатимуть вас деякий час, вони отримують гарне уявлення про те, яку площину ви мали намір продемонструвати.

Але скажімо, ви зближуєте кінці паличок і спостерігаєте за тим, як трясуться руки. Площина, яку він утворює, буде куди більш дико. Вашій аудиторії доведеться спостерігати довше, щоб добре зрозуміти, яку площину ви намагаєтесь продемонструвати.


+1 Я думаю, що це найбільш безпосередньо відповідає на питання. Бо хоча мультиколінеарність впливає на інтерпретацію. Чому це важливо, це стабільність в оцінці.
muratoa

+1 За публікацію цього коментаря (і лише цього коментаря в історії Stackoverflow) під ім'ям користувача Snackrifice.
stackoverflax

19

Геометричний підхід полягає в розгляді квадратів проекції найменше на підпростір , натягнуте на .XYX

Скажіть, у вас є модель:

E[Y|X]=β1X1+β2X2

Наш простір оцінки - це площина, визначена векторами і і проблема полягає в пошуку координат, що відповідають які описують вектор , проекція найменших квадратів на цю площину. Х 2 ( β 1 , β 2 ) Y YX1X2(β1,β2)Y^Y

Тепер припустимо, , тобто вони колінеарні. Тоді підпростір, визначений і є лише лінією, і ми маємо лише один ступінь свободи. Тож ми не можемо визначити два значення та як нам було запропоновано. X 1 X 2 β 1 β 2X1=2X2X1X2β1β2


2
Я давно схвалив цю пропозицію, але перечитавши вашу відповідь, це нагадує мені, що мені завжди подобалися Планні відповіді на складні запитання від Крістенсена ( j.mp/atRp9w ).
chl

@chl: класно, безумовно, це перевірятиму потім. :)
ар

14

Двоє людей штовхають валун в гору. Ви хочете знати, наскільки сильно кожен з них штовхає. Припустимо, ви спостерігаєте, як вони рухаються разом десять хвилин, і валун рухається на 10 футів. Перший хлопець робив всю роботу, а другий просто це підробляв? Або навпаки? Або 50-50? Оскільки обидві сили працюють в той самий час, ви не можете розділити силу жодної окремо. Все, що ви можете сказати, це те, що їх об'єднана сила становить 1 фут на хвилину.

А тепер уявіть, що перший хлопець натискає на хвилину сам, потім дев'ять хвилин з другим хлопцем, а заключна хвилина - це лише другий хлопець, який штовхає. Тепер ви можете використовувати оцінки сил у перші та останні хвилини, щоб визначити силу кожної людини окремо. Незважаючи на те, що вони все ще в основному працюють одночасно, той факт, що є трохи різниці, дозволяє отримати оцінку сили для кожного.

Якщо ви бачили, як кожен чоловік штовхається самостійно протягом повних десяти хвилин, це дасть вам точніші оцінки сил, ніж якщо у силах велике перекриття.

Я залишаю читачеві вправу поширити цю справу на одну людину, яка штовхає в гору, а іншу штовхає вниз (це все ще працює).

Ідеальна мультиколінентність заважає оцінювати сили окремо; поблизу мультиколінності надає більші стандартні помилки.


6

Те, як я думаю про це, насправді з точки зору інформації. Скажімо , кожен з і має деяку інформацію про . Чим більше співвіднесені і один з одним, тим більше інформаційний вміст про від і схожий або перекривається, до точки, що для ідеально корельованої і , це справді однаковий зміст інформації. Якщо ми тепер покладемо і в одну і ту ж (регресійну) модель для пояснення , модель намагається "розподілити" інформацію про те, що (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) дещо довільно містить приблизно для кожного з і . Це не дуже хороший спосіб розподілити це, оскільки будь-який розкол інформації все ще призводить до збереження загальної інформації з ( , ) у моделі (для ідеально співвідносних -х, це справді є випадок невпізнання). Це призводить до нестабільних індивідуальних оцінок окремих коефіцієнтів і , хоча якщо дивитися на прогнозовані значення протягом багатьох пробігів і оцінки іX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, вони будуть досить стабільними.


4

Моя (дуже) інтуїція мирян в цьому полягає в тому, що для OLS-моделі потрібен певний рівень "сигналу" в змінній X для того, щоб виявити, це дає "гарне" передбачення для Y. Якщо той самий "сигнал" поширюється на багато X (оскільки вони співвідносяться), то жоден з корельованих X не може дати достатньо «доказів» (статистичної значущості) про те, що він є реальним прогноктором.

Попередні (чудові) відповіді роблять велику роботу в поясненні того, чому це так.


3

Припустимо, що двоє людей співпрацювали та здійснювали наукові відкриття. Легко сказати їх унікальний внесок (хто що робив), коли двоє абсолютно різні люди (один - теоретичний хлопець, а другий - хороший в експерименті), в той час як важко відрізнити їх унікальний вплив (коефіцієнти в регресії), коли вони близнюки, що діють аналогічно.


2

Якщо два регресори ідеально співвідносяться, їх коефіцієнти неможливо обчислити; корисно подумати, чому їх було б важко інтерпретувати, якби ми могли їх обчислити . Насправді це пояснює, чому важко інтерпретувати змінні, які не є ідеально співвіднесеними, але також не є справді незалежними.

Припустимо, що нашою залежною змінною є щоденна пропозиція риби в Нью-Йорку, а наші незалежні змінні включають в себе одну, чи буде в цей день дощ, і одну на кількість принади, придбаної в цей день. Що ми не усвідомлюємо, збираючи наші дані, це те, що кожного разу, коли йде дощ, рибалки купують жодну приманку, і кожен раз, коли цього не відбувається, вони купують постійну кількість принади. Таким чином, Приманка та Дощ ідеально співвідносяться, і коли ми регенеруємо, ми не можемо обчислити їх коефіцієнти. Насправді, Приманка та Дощ, ймовірно, не ідеально співвідносяться, але ми б не хотіли включати їх обох як регресорів, аби якось не очищати їх від їх ендогенності.


1

Я думаю, що фіксатор змінних фіктивних даних дає ще одну корисну можливість проілюструвати, чому проблема мультиколінеарності є проблемою. Нагадаємо, що вона виникає тоді, коли у нас в моделі є постійний і повний набір муляжів. Потім сума манекенів додає до однієї, постійної, такої багатоколінеарності.

Наприклад, пустушка для чоловіків і одна для жінок:

yi=β0+β1Mani+β2Womani+ui

Стандартна інтерпретація - очікувана зміна яка виникає при зміні від 0 до 1. Аналогічно, - очікувана зміна що виникає при зміні з 0 на 1. Y M a n i β 2 Y W o m a n iβ1YManiβ2YWomani

Але, що тоді повинно представляти ...? Це , тому очікуваний результат для осіб, які не є ні чоловіком, ні жінкою ... напевно, можна впевнено сказати, що практично для всіх наборів даних, з якими ви стикаєтесь, це не так корисне запитання :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.