Справа з корельованими регресорами


23

У множинній лінійній регресії з сильно корельованими регресорами, яку найкращу стратегію використовувати? Чи правомірний підхід додати добуток усіх корельованих регресорів?


1
Вибачте, відповідь @ Suncoolsu видалено. У цьому коментарі та коментарях, що випливали, з'ясовано різницю між мультиколінеарністю та жорстоким кондиціонуванням. Також у коментарі Suncoolsu вказав, як попередня стандартизація може допомогти при поліноміальній регресії. Якби це повторилося, я би проголосував за нього ;-).
whuber

@ Ηλίας: продукт може бути нестабільним у багатьох програмах. Він може зазнати багатьох нулів, якщо окремі регресори мають кілька нулів; його абсолютна величина, ймовірно, матиме сильне позитивне перекос, спричиняючи деякі високі позитивні моменти; це може посилити вихідні дані, особливо одночасні люди, що надають додаткові можливості, додатково додаючи їх важелі. Інтерпретувати теж може бути досить складно, особливо якщо регресори вже є повторними виразами оригінальних змінних (наприклад, журнали чи корені).
whuber

Відповіді:


13

Основні компоненти мають багато сенсу ... математично. Однак я б насторожився просто використовувати якийсь математичний трюк у цьому випадку і сподіваюся, що мені не потрібно думати про свою проблему.

Я рекомендую подумати трохи про те, які у мене є предиктори, що є незалежною змінною, чому мої прогнози є корельованими, чи деякі мої передбачувачі насправді вимірюють ту саму базову реальність (якщо так, чи я можу просто працювати з один вимір і хто з моїх прогнозів був би найкращим для цього), для чого я роблю аналіз - якщо мене не цікавить висновок, а лише прогнозування, то я б фактично могла залишити речі такими, якими вони є, доки в майбутньому Значення предиктора аналогічні минулим.


4
Повністю погоджено, +1. Але характеристика PCA як "математичного трюку" несправедливо зневажає його, ІМХО. Якщо ви погоджуєтесь (я не впевнений, що ви це робите), що підсумовування або усереднення груп регресорів, як пропонує Срікант, було б прийнятним, тоді PCA має бути настільки ж прийнятним і, як правило, покращує придатність. Більше того, основні компоненти можуть дати зрозуміти, які групи предикторів співвідносяться і як вони співвідносяться: це відмінний інструмент для мислення, яке ви відстоюєте.
whuber

2
@whuber, я бачу і згоден з вашою точкою, і я не хочу зневажати PCA, тому однозначно +1. Я просто хотів зазначити, що сліпе використання PCA, не дивлячись і не замислюючись над основною проблемою (яку тут ніхто не виступає), залишило б у мене погані почуття ...
С. Коласа - Відновлення Моніки

11

Для вирішення цієї проблеми можна використовувати основні компоненти або регресію хребта. З іншого боку, якщо у вас є дві змінні, які є досить корельованими, щоб викликати проблеми з оцінкою параметрів, то ви майже напевно можете скинути будь-яку з двох, не втрачаючи багато з точки зору прогнозування - адже дві змінні несуть однакову інформацію . Звичайно, це працює лише тоді, коли проблема пов'язана з двома сильно корельованими незалежними. Коли проблема стосується більше двох змінних, які є майже колінеарними (будь-які дві з яких можуть мати лише помірні кореляції), можливо, вам знадобиться один із інших методів.


2
(+1) Тепер проблема полягає в тому, що в ОП не вказано, скільки змінних входить в модель, тому що, якщо вони є численними, може бути краще зробити зменшення і вибір змінних, наприклад, критерій еластичної мережі (який є комбінацією пені Лассо та Рідж).
chl

3

Ось ще одна думка, натхненна Стефаном відповідь :

Якщо деякі з ваших кореляційних регресорів значущо пов'язані (наприклад, це різні міри інтелекту, тобто словесні, математичні тощо), ви можете створити єдину змінну, яка вимірює ту саму змінну, використовуючи одну з наступних методик:

  • Підсумовуйте регресори (доцільно, якщо регресори є складовими цілого, наприклад, словесний IQ + математичний IQ = загальний IQ)

  • Середнє значення регресорів (доцільно, якщо регресори вимірюють однакову конструкцію, наприклад, розмір лівого взуття, розмір правого взуття для вимірювання довжини ніг)

  • Факторний аналіз (для обліку помилок вимірювань та вилучення прихованого коефіцієнта)

Потім ви можете скинути всі корельовані регресори та замінити їх на одну змінну, що випливає з вищевказаного аналізу.


1
Це має сенс, якщо регресори вимірюються в одній шкалі. У психології різні підшкали часто вимірюються за різними шкалами (і все ще співвідносяться), тому зважена сума або середня величина (яка тут справді однакова) була б доречною. І звичайно, можна було б розглянути PCA як таке, що забезпечує саме такий вид зважування шляхом обчислення осей максимальної дисперсії.
S. Kolassa - Відновіть Моніку

2

Я збирався сказати майже те саме, що і Стефан Коласа вище (тому я підтримав його відповідь). Я лише додам, що іноді мультиколінеарність може бути зумовлена ​​використанням обширних змінних, які все сильно корелюються з деяким показником розміру, і все можна покращити, використовуючи інтенсивні змінні, тобто розділяючи все на якусь міру розміру. Наприклад, якщо ваші одиниці є країнами, ви можете поділити їх за кількістю населення, площею або ВНП, залежно від контексту.

О, і щоб відповісти на другу частину оригінального запитання: я не можу придумати жодної ситуації, коли додавання продукту всіх корельованих регресорів було б гарною ідеєю. Як це допомогло б? Що це означало б?


Моя первісна ідея полягала в тому, щоб додати взяти до уваги попарне взаємодія регресорів
Ηλίας

Часто корисно враховувати парне взаємодія. Але далеко не всі: їх потрібно продумати, що має сенс!
kjetil b halvorsen

1

Я не фахівець з цього питання, але моя перша думка полягала б у проведенні аналізу основних компонентів на змінних предиктора, а потім використовувати отримані головні компоненти для прогнозування залежної змінної.


kk

p

@chl Добрий момент. Але оскільки основні компоненти - це лінійні комбінації, то просто (хоча іноді і болісно) складати пристосовану модель регресії (= одне лінійне перетворення) з проекцією на компоненти (= чергове лінійне перетворення) для отримання лінійної інтерпретаційної моделі із залученням усіх оригінальних змінних. Це дещо схоже на методи ортогоналізації. Зауважимо також, що останні пропозиції Сріканта (сума або середній рівень регресорів) по суті наближаються до головного власного вектора, проте створюють подібні пояснювальні труднощі.
whuber

@whuber Так, я згоден з обома вашими пунктами. Я широко використовував регресію PLS та CCA, тому в цьому випадку ми маємо мати справу з лінійними комбінаціями з обох сторін (ст. Максимальний коефіцієнт коваріації чи кореляції); з великою кількістю предикторів інтерпретація канонічних векторів болісна, тому ми просто дивимося на найбільш сприяючі змінні. Тепер я можу уявити, що не так багато передбачувачів, щоб усі ваші аргументи (@Stephan, @Mike) мали сенс.
chl

-1

Х

хijстангаrгizег=хij-х.j¯сj

Це не засіб захисту, але, безумовно, крок у правильному напрямку.


8
Лінійні перетворення (подібні цим) ніколи не змінюють коефіцієнтів кореляції. Справа в стандартизації полягає в поліпшенні кондиціонування нормальної матриці.
whuber

1
Стандартизація змінних не вплине на кореляцію між незалежними змінними і не "зменшить ефект кореляції" жодним чином, про який я можу подумати стосовно цієї проблеми.
Бретт

2
@Brett, типовий приклад, коли стандартизація допомагає - це поліноміальна регресія . Завжди рекомендується стандартизувати регресори. Стандартизація не змінює матрицю кореляції, але робить матрицю var cov (яка тепер є матрицею кореля) добре поводитись (називається кондиціонуванням @whuber, що вказує на номер умови матриці, IMHO).
suncoolsu

Домовились. Центрирування корисно при введенні термінів вищого порядку, наприклад, поліноми або терміни взаємодії. Це, мабуть, не так, і в іншому випадку не допоможе вирішити проблему корельованих прогнозів.
Бретт

Я видалив його, бо не хотів плутати людей з неправильною відповіддю. Ймовірно, модератори це підняли знову.
suncoolsu
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.