Чому мультиколінеарність не перевіряється в сучасній статистиці / машинному навчанні


44

У традиційній статистиці, будуючи модель, ми перевіряємо наявність мультиколінеарності за допомогою таких методів, як оцінки коефіцієнта дисперсії дисперсії (VIF), але в машинному навчанні ми замість цього використовуємо регуляризацію для вибору особливостей і, здається, не перевіряємо, чи співвідносяться функції зовсім. Чому ми це робимо?

Відповіді:


51

Враховуючи, що мультиколінеарія важлива в регресійному аналізі, оскільки, в екстремумі , вона безпосередньо залежить від того, чи є ваші коефіцієнти однозначно визначені в даних. У менш важких випадках він все ще може поплутатися з вашими оцінками коефіцієнта; невеликі зміни в даних, що використовуються для оцінки, можуть спричинити дикі перепади оціночних коефіцієнтів. Це може бути проблематично з інфекційної точки зору: Якщо дві змінні сильно співвідносяться, збільшення однієї може компенсуватися зменшенням іншої, тому комбінований ефект полягає в тому, щоб заперечувати один одного. Маючи більш ніж дві змінні, ефект може бути ще більш тонким, але якщо прогнози стабільні, цього досить часто для машинного навчання.

Поміркуйте, чому ми регулюємося в контексті регресії: нам потрібно обмежувати модель від занадто гнучкої. Застосування правильної кількості регуляризації трохи збільшить ухил для більшого зменшення дисперсії. Класичний приклад цього - додавання поліноміальних термінів та ефектів взаємодії до регресії: У виродженому випадку рівняння прогнозування буде інтерполювати точки даних, але, ймовірно, буде жахливим при спробі передбачити значення невидимих ​​точок даних. Скорочення цих коефіцієнтів, ймовірно, мінімізує або повністю усуне деякі з цих коефіцієнтів і покращить узагальнення.

Однак, випадковий ліс може мати параметр регуляризації через кількість змінних, відібраних при кожному розщепленні: ви отримуєте кращі розбиття, тим більше mtry(більше можливостей на вибір; деякі з них краще, ніж інші), але це також робить кожне дерево більш сильно співвіднесеним між собою, дещо пом’якшуючи диверсифікуючий ефект оцінки кількох дерев, в першу чергу. Ця дилема змушує знайти правильний баланс, як правило, досягнутий за допомогою перехресної перевірки. Важливо, що, на відміну від регресійного аналізу, жодна частина випадкової лісової моделі не шкодить висококолінеарним змінним: навіть якщо дві змінні забезпечують однакову чистоту дочірнього вузла, ви можете просто вибрати одну, не знижуючи якість результату.

Так само для чогось подібного до SVM ви можете включати більше предикторів, ніж функцій, оскільки хитрість ядра дозволяє працювати виключно над внутрішнім продуктом цих векторів функцій. Маючи більше можливостей, ніж спостереження, буде проблемою в регресії, але хитрість ядра означає, що ми оцінюємо лише коефіцієнт для кожного прикладу, тоді як параметр регуляризації зменшує гнучкість рішення - що, безумовно, добре, оскільки оцінювати параметрів дляCNNспостереження в необмеженому вигляді завжди дадуть ідеальну модель на тестових даних - і ми повернемось до повного кола, назад до сценарію регресу хребта / LASSO / еластичної мережі, де у нас є гнучкість моделі, обмежена як перевірка на надмірно оптимістичну модель. Огляд умов KKT проблеми SVM виявляє, що рішення SVM є унікальним, тому нам не потрібно турбуватися про проблеми ідентифікації, що виникли у випадку регресії.

Нарешті, розглянемо реальний вплив мультиколінеарності. Це не змінює прогнозну силу моделі (принаймні, на даних тренувань), але це відповідає нашим оцінкам коефіцієнтів. У більшості додатків ML, ми не дбаємо про коефіцієнти самих, просто втрата наших модельних прогнозів, тому в цьому сенсі перевірка VIF насправді не дає відповіді на відповідне запитання. (Але якщо незначна зміна даних спричиняє великі коливання коефіцієнтів (класичний симптом мультиколінеарності), це може також змінити прогнози, і в цьому випадку нам все одно, але все це [ми сподіваємось!] Характеризується, коли ми виконувати перехресну перевірку, яка все-таки є частиною процесу моделювання.) Регресія інтерпретується легше, але інтерпретація може бути не найважливішою метою для деяких завдань.


1
Для моделювання причинної регресії, використовуючи такі методи, як оцінка схильності чи регулювання регресії, колінеарність може бути проблемою навіть для прогнозування, оскільки зазвичай мета полягає в тому, щоб встановити модель або виключно на контрольній / неекспонованій групі, а потім оцінити результати, використовуючи цю модель на експериментальній групи, або ж об'єднайте дві групи, але використовуйте змінну індикатора для вимірювання ефекту, керуючи іншими факторами, перебування в експериментальній групі.
ely

1
Якщо колінеарність створює помилки в коефіцієнтах, то розширена регресія для експериментальної групи не працюватиме. Аналогічно, оцінку коефіцієнта для індикаторної змінної, яка отримала лікування, можна скинути, якби зробити одну регресію в обох підпроборах. Сучасні методи машинного навчання зазвичай не використовуються для аналізу таких типів причинно-наслідкових зв’язків, і тому нікому не доводилося стикатися з необхідністю інструментарію для його обліку.
ely

@ely, у вашому першому прикладі співлінійність (серед коваріатів, а не лікування) не спричиняє проблем, тому що знову ж таки мета - прогнозування результатів контрфактичності, а узгодженість не є проблемою передбачення. Також сучасні методи МЛ часто застосовуються при причинному висновку; узагальнене прискорене моделювання та випадкові ліси широко використовуються для оцінки показників схильності, а TMLE використовує методи ML для заміщення результатів зустрічних результатів. Я можу стверджувати, що сила причинних методів полягає в тому, що узгодженість зазвичай для них не є проблемою.
Ной

@Noah Зазвичай саме інтерпретація коефіцієнта експозиції має значення (а також інтерпретація інших ефектів), а не лише точна прогнозованість. Я усвідомлюю, що мій коментар не дав цього зрозуміти, але тому це питання. Якщо загальний прогноз хороший, але не визначається тим, що він по-справжньому пов'язаний з коефіцієнтом, оціненим для експозиції, зазвичай це небажана модель причинного висновку.
ely

21

Причина полягає в тому, що цілі «традиційної статистики» відрізняються від багатьох методик машинного навчання.

Під «традиційною статистикою» я припускаю, що ви маєте на увазі регресію та її варіанти. У регресії ми намагаємось зрозуміти вплив незалежних змінних на залежну змінну. Якщо є сильна мультиколінеарність, це просто неможливо. Жоден алгоритм цього не виправить. Якщо старанність співвідноситься з відвідуванням занять та оцінками, ми не можемо знати, що насправді призводить до підвищення цін - відвідуваність чи старанність.

Однак у техніці машинного навчання, що зосереджуються на точності прогнозування, все, що нам важливо, - це те, як ми можемо використовувати набір змінних для прогнозування іншого набору. Нас не хвилює вплив цих змінних один на одного.

По суті, той факт, що ми не перевіряємо на наявність багатоколінерності в техніці машинного навчання, не є наслідком алгоритму, це наслідком поставленої мети. Це можна побачити, помітивши, що сильна колінеарність між змінними не шкодить прогностичній точності методів регресії.


11

Тут, мабуть, існує основне припущення, що не перевірка наявності колінеарності є розумною або навіть найкращою практикою. Це здається недоліком. Наприклад, перевірка досконалої колінеарності в наборі даних з багатьма прогнозами виявить, чи є дві змінні насправді однакові речі, наприклад, дата народження та вік (приклад, взятий від Dormann et al. (2013), Ecography , 36 , 1, pp. 27–46 ). Я також іноді бачив, що в змаганнях з Kaggle виникає проблема ідеально співвіднесених прогнозів, де конкуренти на форумі намагаються усунути потенційних прогнозів, які були анонімізовані (тобто мітка передбачувача прихована, загальна проблема в змаганнях, схожих на Kaggle та Kaggle).

Ще існує діяльність у машинному навчанні вибору предикторів - виявлення сильно корельованих предикторів може дозволити працівникові знайти предикторів, які є проксі-серверами для іншої основної (прихованої) змінної, і в кінцевому підсумку знайти одну змінну, яка найкраще справляє представлення прихованої змінної або альтернативно пропонуйте змінні, які можна комбінувати (наприклад, за допомогою PCA).

Отже, я б припустив, що хоча методи машинного навчання зазвичай (або принаймні часто) розроблені таким чином, щоб бути надійними перед обличчям кореляційних прогнозів, розуміння ступеня кореляції прогнозів часто є корисним кроком у створенні надійної та точної моделі , і є корисним посібником для отримання оптимізованої моделі.


9

Основна проблема мультиколінеарності полягає в тому, що вона змішує коефіцієнти (бета) незалежних змінних. Ось чому це серйозна проблема, коли ви вивчаєте зв'язки між змінними, встановлюєте причинну ситуацію тощо.

Однак, якщо ви не так зацікавлені в розумінні цього явища, але орієнтовані виключно на прогнозування та прогнозування, то багатоколінеарність - це менше питання. Або, принаймні, про це думають люди.

Я не говорю тут про ідеальну мультиколінеарність , яка є технічним питанням або проблемою ідентифікації. Технічно це просто означає, що матриця дизайну призводить до сингулярності, а рішення не визначається.


4
Навіть при досконалій колінеарності прогнози чітко визначені.
whuber

@whuber, якщо ви використовуєте OLS, пакет stat, ймовірно, призведе до помилки, оскільки він не зможе інвертувати матрицю. Розумні можуть скинути одну з незалежних версій і ходити далі.
Аксакал

2
Якщо ви використовуєте узагальнені зворотні, то ця особливість не є проблемою.
Аналітик

1
Я не дотримуюся вашої логіки, Аксакал: ти намагаєшся припустити, що методи машинного навчання відрізняються від статистичних методів тим, що у колишніх якимось чином не виникає проблем з матрицями зі зниженим рангом? Цікава ідея дослідити.
whuber

1
@user, незалежна змінна майже завжди корелює, і зазвичай це нормально. Тільки досконала мультиколінеарність викликає дефіцит ранжу. Мультиколінеарність стосується дуже сильних кореляцій, і взагалі небажано, але, як я писав раніше, це є доброякісним питанням у багатьох випадках.
Аксакал

7

Регуляризація в машинному навчанні стабілізує коефіцієнти регресії, так що принаймні такий ефект мультиколінеарності приручений. Але що ще важливіше, якщо ви збираєтесь прогнозувати (що часто є машинними учнями), тоді проблема мультиколінеарності була не такою великою проблемою. Це проблема, коли потрібно оцінити певний коефіцієнт, і у вас немає інформації.

Також моя відповідь на тему " Коли LASSO вибирає корельовані прогнози " може бути корисною для вас.


1

Я думаю, що мультиколінеарність слід перевірити в машинному навчанні. Ось чому: Припустимо, у нашому наборі даних є дві сильно корельовані функції X і Y. Це означає, що площина відгуку не є надійною (невелика зміна даних може мати різкий вплив на орієнтацію площини відповіді). З чого випливає, що прогнози моделі для даних вказують далековід лінії, де X і Y, як правило, падають, не є надійними. Якщо ви використовуєте свою модель для прогнозування таких пунктів, прогнози, ймовірно, будуть дуже поганими. Іншими словами, коли у вас є дві сильно корельовані функції, як модель, ви вивчаєте площину, де фактично дані в основному потрапляють у рядок. Отже, важливо видалити з ваших даних сильно співвіднесені функції для запобігання ненадійних моделей та помилкових прогнозів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.