Чи можу я просто видалити одну з двох змінних предиктора, які сильно лінійно корелюються?


18

Використовуючи коефіцієнт кореляції Пірсона, у мене є кілька змінних, які сильно корелюються ( і для двох пар змінних, які є в моїй моделі).ρ = 0,989ρ=0.978ρ=0.989

Причина , деякі з змінних мають високу кореляцію тому , що одна змінна використовується в обчисленні для іншої змінної.

Приклад:

B=V/3000 і E=VD

B і маютьρ = 0,989Eρ=0.989

Чи можна мені просто «викинути» одну зі змінних?

Відповіді:


26

І B, і E походять від V. B і E явно не є справді "незалежними" змінними одна від одної. Основна змінна, яка насправді має значення, це V. Ви, мабуть, повинні відмовитися від B і E в цьому випадку і зберегти лише V.

У більш загальній ситуації, коли у вас є дві незалежні змінні, які дуже сильно корелюються, вам, безумовно, слід видалити одну з них, оскільки ви потрапили в загадку мультиколінеарності, а коефіцієнти регресії вашої моделі регресії, пов'язані з двома сильно корельованими змінними, будуть ненадійними. Крім того, простою англійською мовою, якщо дві змінні настільки сильно співвіднесені, вони, очевидно, передадуть майже таку саму інформацію у вашу регресійну модель. Але, включивши обидва, ви фактично послаблюєте модель. Ви не додаєте додаткову інформацію. Натомість ви нагнітаєте вашу модель шумом. Недобра річ.

Один із способів збереження сильно корельованих змінних у вашій моделі - це використання замість регресії моделі аналізу основних компонентів (PCA). Моделі PCA створені для позбавлення від мультиколінеарності. Компроміс полягає в тому, що ви, в кінцевому підсумку, маєте два-три основні компоненти у вашій моделі, які часто є лише математичними конструкціями і є практично незрозумілими в логічному плані. Таким чином, PCA часто відмовляється від методу, коли вам доведеться представити свої результати зовнішній аудиторії, такі як управління, регулятори тощо ... Моделі PCA створюють чорні скриньки, які дуже складно пояснити.


1
(+1) для пояснення PCA.
steffen

1
Дякую, це було чудовим поясненням. Я чув і читав про PCA, але це для остаточного проекту для аспірантури "регресії", який я беру, і професор просто хоче, щоб ми використовували LR. Незважаючи на це, я дуже вдячний за пояснення PCA і, ймовірно, буду використовувати його для розваги.
TheCloudlessSky

3
За певних обставин рекомендації у цій відповіді не спрацюють. Наприклад, що робити, якщо справжнє відношення Y = B + E = V / 3000 + V * D? Тоді трапляється, що змінні мають високу кореляцію через діапазони V і D у наборі даних - що є (або може бути) чистою випадковістю - при викиданні одного з B або E призведе до неправильної моделі. Коротше кажучи, "залежність" взагалі не є вагомою причиною для видалення деяких змінних із моделі; включення сильно залежних змінних не обов'язково "послаблює" модель; PCA - це не завжди вихід.
whuber

@whuber, я не впевнений, що згоден з твоїми коментарями. Я думаю, що "залежність" взагалі є досить вагомою причиною для видалення деяких змінних з регресійної моделі. В іншому випадку ваші коефіцієнти регресії не можуть бути надійними. У прикладі, який ви використовуєте, що було б проблематично для регресії, одне просте рішення - використовувати весь вираз (V / 3000 + V * D) як єдину змінну.
Sympa

3
Загалом, якщо модель - beta1 * (V / 3000) + beta2 * (V D), ви не можете цього зробити: іншими словами, ваша пропозиція передбачає, що ви знаєте лінійне обмеження серед коефіцієнтів. Це правда, що коефіцієнти регресії можуть мати * відносно великі ВІФ або стандартні помилки, але при достатній кількості даних - або при добре обраних спостереженнях - оцінки будуть достатньо надійними. Отже, ми погоджуємось, що існує проблема, і я дійсно згоден з вашим рішенням як однією з декількох альтернатив, які слід розглянути . Я не погоджуюся з тим, що він такий же загальний і необхідний, як ви це робите.
whuber

7

Ось відповідь з точки зору машинознавця, хоча я боюся, що мене битимуть справжні статистики.

Чи можна мені просто «викинути» одну зі змінних?

Ну, питання в тому, який тип моделі ви хочете використовувати для прогнозування. Це залежить, наприклад, від ...

  • Чи може модель з корельованими предикторами? Наприклад, хоча NaiveBayes теоретично має проблеми з корельованими змінними, експерименти показали, що вона все ще може працювати добре.
  • як модель обробляє змінні предиктора? Наприклад, різниця між B і V буде нормалізована при оцінці щільності ймовірності, можливо, однакова для E і V залежно від дисперсії D (як уже говорила ейфорія)
  • яке поєднання використання B і E (одне, жодне, і те і інше) дає найкращий результат, оцінений розумним перехресним перевіркою + тест на набір затримань?

Іноді ми машинознавці навіть проводимо генетичну оптимізацію, щоб знайти найкращу арифметичну комбінацію набору предикторів.


7

B - лінійне перетворення V. E являє собою взаємодію між V і D. Чи розглядали ви конкретизацію моделі, яка є Y = Перехват + V + D + V: D? Як підказує @ euphoria83, мабуть, що в D мало варіацій, тому це може не вирішити вашу проблему; однак він повинен принаймні чітко пояснювати незалежні внески V та D. Заздалегідь відцентруйте як V, так і D.


4
+1: Не тільки ця пропозиція є хорошим підходом до проблеми, про яку йдеться, вона також показує, що викидання змінних не завжди є правильним (або навіть хорошим) підходом до вирішення проблем колінеарності.
whuber

0

Якщо D не є постійною, то B і E фактично є двома різними змінними через коливання D. Висока кореляція вказує на те, що D практично постійний протягом усіх навчальних даних. Якщо це так, то ви можете відкинути або B, або E.


1
Ну а D - це ще одне рівняння, яке обчислюється за допомогою інших змінних: . Це все ще стосується? D=n12N2n2
TheCloudlessSky

Якщо ви відкинете B або E і розглядаєте їх як рівнозначні, то ви неявно стверджуєте, що V - це все, що насправді має значення. У такому випадку вам краще зберігати B в моделі, оскільки її інтерпретація зрозуміла. Далі, якщо ви збережете E, але D насправді має обмежену дисперсію, справедливість інтерпретації ваших результатів ще більше підозрює (ніж зазвичай) для різних значень D.
russellpierce
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.