Враховуючи, що мультиколінеарія важлива в регресійному аналізі, оскільки, в екстремумі , вона безпосередньо залежить від того, чи є ваші коефіцієнти однозначно визначені в даних. У менш важких випадках він все ще може поплутатися з вашими оцінками коефіцієнта; невеликі зміни в даних, що використовуються для оцінки, можуть спричинити дикі перепади оціночних коефіцієнтів. Це може бути проблематично з інфекційної точки зору: Якщо дві змінні сильно співвідносяться, збільшення однієї може компенсуватися зменшенням іншої, тому комбінований ефект полягає в тому, щоб заперечувати один одного. Маючи більш ніж дві змінні, ефект може бути ще більш тонким, але якщо прогнози стабільні, цього досить часто для машинного навчання.
Поміркуйте, чому ми регулюємося в контексті регресії: нам потрібно обмежувати модель від занадто гнучкої. Застосування правильної кількості регуляризації трохи збільшить ухил для більшого зменшення дисперсії. Класичний приклад цього - додавання поліноміальних термінів та ефектів взаємодії до регресії: У виродженому випадку рівняння прогнозування буде інтерполювати точки даних, але, ймовірно, буде жахливим при спробі передбачити значення невидимих точок даних. Скорочення цих коефіцієнтів, ймовірно, мінімізує або повністю усуне деякі з цих коефіцієнтів і покращить узагальнення.
Однак, випадковий ліс може мати параметр регуляризації через кількість змінних, відібраних при кожному розщепленні: ви отримуєте кращі розбиття, тим більше mtry
(більше можливостей на вибір; деякі з них краще, ніж інші), але це також робить кожне дерево більш сильно співвіднесеним між собою, дещо пом’якшуючи диверсифікуючий ефект оцінки кількох дерев, в першу чергу. Ця дилема змушує знайти правильний баланс, як правило, досягнутий за допомогою перехресної перевірки. Важливо, що, на відміну від регресійного аналізу, жодна частина випадкової лісової моделі не шкодить висококолінеарним змінним: навіть якщо дві змінні забезпечують однакову чистоту дочірнього вузла, ви можете просто вибрати одну, не знижуючи якість результату.
Так само для чогось подібного до SVM ви можете включати більше предикторів, ніж функцій, оскільки хитрість ядра дозволяє працювати виключно над внутрішнім продуктом цих векторів функцій. Маючи більше можливостей, ніж спостереження, буде проблемою в регресії, але хитрість ядра означає, що ми оцінюємо лише коефіцієнт для кожного прикладу, тоді як параметр регуляризації зменшує гнучкість рішення - що, безумовно, добре, оскільки оцінювати параметрів дляСNNспостереження в необмеженому вигляді завжди дадуть ідеальну модель на тестових даних - і ми повернемось до повного кола, назад до сценарію регресу хребта / LASSO / еластичної мережі, де у нас є гнучкість моделі, обмежена як перевірка на надмірно оптимістичну модель. Огляд умов KKT проблеми SVM виявляє, що рішення SVM є унікальним, тому нам не потрібно турбуватися про проблеми ідентифікації, що виникли у випадку регресії.
Нарешті, розглянемо реальний вплив мультиколінеарності. Це не змінює прогнозну силу моделі (принаймні, на даних тренувань), але це відповідає нашим оцінкам коефіцієнтів. У більшості додатків ML, ми не дбаємо про коефіцієнти самих, просто втрата наших модельних прогнозів, тому в цьому сенсі перевірка VIF насправді не дає відповіді на відповідне запитання. (Але якщо незначна зміна даних спричиняє великі коливання коефіцієнтів (класичний симптом мультиколінеарності), це може також змінити прогнози, і в цьому випадку нам все одно, але все це [ми сподіваємось!] Характеризується, коли ми виконувати перехресну перевірку, яка все-таки є частиною процесу моделювання.) Регресія інтерпретується легше, але інтерпретація може бути не найважливішою метою для деяких завдань.