важливість функції через випадкові лісові та лінійні регресії різні

Застосував Лассо для ранжирування функцій та отримав такі результати:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Зауважте, що набір даних має 3 мітки. Рейтинг функцій для різних міток однаковий.

Потім застосуємо випадковий ліс до того ж набору даних:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Зауважте, що рейтинг дуже відрізняється від того, який виробляє Лассо.

Як інтерпретувати різницю? Чи випливає, що основна модель за своєю суттю нелінійна?

feature-selection random-forest linear-regression

— неврит
джерело

Ранг ознаки насправді не перекладається між різними класифікаторами. Щоб перевірити, чи модель нелінійна, дивіться ось наприклад: stats.stackexchange.com/questions/35893/…

— Alex R.

Особливості імпортів - це лише пропозиція, заснована на "евристиці". Вони можуть бути часом ненадійними. Зазвичай я більше довіряю випадковим лісам, ніж Лассо.

— Геренюк

Таким чином, ваш запит - це порівняння лінійної регресії з важливістю змінних, похідних від випадкових лісів.

Ласо знаходить коефіцієнти лінійної регресійної моделі, застосовуючи регуляризацію. Популярним підходом до оцінювання важливості змінної у моделі лінійної регресії є розкладання $R^2$ на внески, приписані кожній змінній. Але змінна важливість не є однозначною в лінійній регресії через кореляції між змінними. Зверніться до документа, що описує метод PMD (Feldman, 2005) у посиланнях нижче.

Інший популярний підхід - усереднення по порядку замовлень (LMG, 1980). LMG працює так:

Знайдіть часткову часткову кореляцію кожного предиктора в моделі, наприклад, для змінної a у нас є: $SS_a/SS_{total}$ . Це означає, скільки би $R^2$ збільшити, якщо змінна $a$ були додані до моделі.
Обчисліть це значення для кожної змінної для кожного порядку, в якому змінна потрапляє в модель, тобто { $a,b,c$ }; { $b,a,c$ }; { $b,c,a$ }
Знайдіть середнє значення напів часткових співвідношень для кожного з цих порядків. Це середнє значення для замовлень.

Алгоритм випадкового лісу підходить для декількох дерев, кожне дерево в лісі будується шляхом випадкового вибору різних даних із набору даних. Вузли кожного дерева будуються шляхом вибору та розщеплення для досягнення максимального зменшення дисперсії. Під час прогнозування на тестовому наборі даних виведення окремих дерев усереднюється для отримання кінцевого результату. Кожна змінна перестановлена між усіма деревами і обчислюється різниця в помилці вибірки до і після перестановки. Змінні з найбільшою різницею вважаються найбільш важливими, а менші - менш важливими.

Метод, за допомогою якого модель вписується у дані тренувань, сильно відрізняється для лінійної регресійної моделі порівняно з випадковою лісовою моделлю. Але обидві моделі не містять структурних зв'язків між змінними.

Щодо вашого запиту про нелінійність залежної змінної: Ласо є по суті лінійною моделлю, яка не зможе дати хороших прогнозів для основних нелінійних процесів порівняно з моделями на основі дерев. Ви можете мати змогу перевірити це, перевіривши продуктивність моделей на основі тестового набору для відміни, якщо випадковий ліс працює краще, базовий процес може бути нелінійним. Крім того, ви можете включити змінні ефекти взаємодії та змінні вищого порядку, створені за допомогою a, b і c, в модель lasso і переконатися, що ця модель ефективніше порівняно з lasso лише з лінійною комбінацією a, b і c. Якщо це так, то базовий процес може бути нелінійним.

Список літератури:

— Сандіп С. Сандху
джерело