Таким чином, ваш запит - це порівняння лінійної регресії з важливістю змінних, похідних від випадкових лісів.
Ласо знаходить коефіцієнти лінійної регресійної моделі, застосовуючи регуляризацію. Популярним підходом до оцінювання важливості змінної у моделі лінійної регресії є розкладанняR2на внески, приписані кожній змінній. Але змінна важливість не є однозначною в лінійній регресії через кореляції між змінними. Зверніться до документа, що описує метод PMD (Feldman, 2005) у посиланнях нижче.
Інший популярний підхід - усереднення по порядку замовлень (LMG, 1980). LMG працює так:
- Знайдіть часткову часткову кореляцію кожного предиктора в моделі, наприклад, для змінної a у нас є: SSа/ SSt o t a l. Це означає, скільки биR2 збільшити, якщо змінна а були додані до моделі.
- Обчисліть це значення для кожної змінної для кожного порядку, в якому змінна потрапляє в модель, тобто {a , b , c}; {б , а , в}; {б , в , а}
- Знайдіть середнє значення напів часткових співвідношень для кожного з цих порядків. Це середнє значення для замовлень.
Алгоритм випадкового лісу підходить для декількох дерев, кожне дерево в лісі будується шляхом випадкового вибору різних даних із набору даних. Вузли кожного дерева будуються шляхом вибору та розщеплення для досягнення максимального зменшення дисперсії. Під час прогнозування на тестовому наборі даних виведення окремих дерев усереднюється для отримання кінцевого результату. Кожна змінна перестановлена між усіма деревами і обчислюється різниця в помилці вибірки до і після перестановки. Змінні з найбільшою різницею вважаються найбільш важливими, а менші - менш важливими.
Метод, за допомогою якого модель вписується у дані тренувань, сильно відрізняється для лінійної регресійної моделі порівняно з випадковою лісовою моделлю. Але обидві моделі не містять структурних зв'язків між змінними.
Щодо вашого запиту про нелінійність залежної змінної: Ласо є по суті лінійною моделлю, яка не зможе дати хороших прогнозів для основних нелінійних процесів порівняно з моделями на основі дерев. Ви можете мати змогу перевірити це, перевіривши продуктивність моделей на основі тестового набору для відміни, якщо випадковий ліс працює краще, базовий процес може бути нелінійним. Крім того, ви можете включити змінні ефекти взаємодії та змінні вищого порядку, створені за допомогою a, b і c, в модель lasso і переконатися, що ця модель ефективніше порівняно з lasso лише з лінійною комбінацією a, b і c. Якщо це так, то базовий процес може бути нелінійним.
Список літератури: