Чи варто турбуватися про мультиколінеарність при використанні нелінійних моделей?


13

Скажімо, у нас є проблема бінарної класифікації з переважно категоричними ознаками. Ми використовуємо деяку нелінійну модель (наприклад, XGBoost або Random Forests), щоб дізнатися її.

  • Чи варто все-таки турбуватися про багатоколірність? Чому?
  • Якщо відповідь на вищезазначене відповідає дійсності, як з цим боротися, враховуючи, що використовуються ці типи нелінійних моделей?

Відповіді:


7

Мультиколінеарність не буде проблемою для певних моделей. Наприклад, випадковий ліс або дерево рішень. Наприклад, якщо у нас є два однакових стовпця, дерево рішень / випадковий ліс автоматично "скидає" один стовпець на кожен розкол. І модель все одно буде добре працювати.

Крім того, регуляризація - це спосіб "виправити" проблему мультиколінеарності. Моя відповідь Методи регуляризації логістичної регресії дають деталі.


5
Я думаю, що це було б покращено, якби ви детальніше зупинилися на тому, у чому полягає проблема, яка "виправлена" регуляризацією.
Метью Друрі

2

Пізно до партії, але ось все одно моя відповідь, і це "Так", завжди слід піклуватися про колінеарність, незалежно від того, модель / метод є лінійною чи ні, або головне завдання - передбачення чи класифікація.

Припустимо ряд лінійно корельованих коваріатів / особливостей, присутніх у наборі даних та у випадковому лісі як метод. Очевидно, що випадковий вибір на вузол може вибирати лише (або здебільшого) колінеарні ознаки, що може / призведе до поганого розбиття, і це може відбуватися повторно, що негативно впливає на продуктивність.

Тепер колінеарні ознаки можуть бути менш інформативними щодо результату, ніж інші (неколінеарні) ознаки, і як такі їх слід розглядати для усунення з набору ознак у будь-якому разі. Однак припустимо, що функції в рейтингу "важливості функції", що виробляється РФ, займають високе місце. Як такі вони зберігатимуться в наборі даних без необхідності збільшуючи розмірність. Отже, на практиці я завжди в ході дослідницького кроку (з багатьох пов'язаних) перевіряв попарну асоціацію ознак, включаючи лінійну кореляцію.


Я вважаю, що є випадки, коли мультиколінеарність можна сміливо ігнорувати, деякі випадки обговорюються тут: statisticshorizons.com/multicollinenary
д-р Ніша Арора

0
  1. Чи варто все-таки турбуватися про багатоколірність? Чому?

Якщо нелінійна модель - це деревова модель, то ви не повинні вважати це серйозним. У різних моделях дерев буде різний метод угоди, наприклад, випадковий ліс утримуватиме їх обох (оскільки вони будують дерево самостійно, а випадковий вибір функції для кожного дерева), але це не впливає на ефективність прогнозування, навіть якщо ви видалите зайвий. Але для xgboost він вибере когось із них і використовуватиме його до останнього побудови дерева.

  1. Якщо відповідь на вищезазначене відповідає дійсності, як з цим боротися, враховуючи, що використовуються ці типи нелінійних моделей?

Йдеться лише про значення інтерпретації, тому пропонується видалити сильно кореляційну змінну.


-3

Мультиколінеарність - це завжди можлива проблема. Змінні, які є предикторами в моделі, впливатимуть на прогнозування, коли вони лінійно пов'язані (тобто коли присутня колінеарність).


1
Дякую, якщо (1) в центрі уваги - ефективність прогнозування (а не інтерпретабельність) та (2) модель нелінійна, ви б не хотіли детальніше розглянути, чому це все ще може бути проблемою? (і як саме це буде проявлятися?)
Джош

Ці змінні, які є предикторами в моделі, впливатимуть на прогнозування, коли вони лінійно пов'язані (тобто присутня колінеарність).
Майкл Р. Черник

1
Як саме впливати на прогноз? BTW, stats.stackexchange.com/a/138082/99274 , укладіть кілька посилань у свою відповідь або зіткнетесь з гнівом натовпу "був там, зробив це".
Карл

7
Оскільки класифікація настільки тісно пов'язана з прогнозуванням, і прогнозування, як правило, не страждає від мультиколінеарності, важливо підтримати ваше твердження, що це завжди "можлива проблема", особливо для конкретних моделей, згаданих у питанні. Яка проблема була б для класифікації та чому?
whuber

12
Я впевнений, що ви просите це питання. Вюбер запитав, чому передбачення страждає від мультиколінеарності, а ви в основному відповіли "Прогноз страждає від мультиколінеарності, тому що прогноз страждає від мультиколінеарності".
Метью Друрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.