Використання LASSO на випадкових лісах


14

Я хотів би створити випадковий ліс, використовуючи наступний процес:

  • Побудуйте дерево на випадкових вибірках даних і особливостей, використовуючи посилення інформації для визначення розбиття
  • Припиніть вузол листя, якщо він перевищує заздалегідь задану глибину АБО будь-який розкол призведе до того, що кількість листків буде меншою за попередньо визначений мінімум
  • Замість того, щоб призначити мітку класу для кожного дерева, призначте пропорцію класів у вузлі листя
  • Зупиніть будівництво дерев після того, як буде побудовано попередньо задану кількість

Це перетворює традиційний випадковий лісовий процес двома способами. По-перше, він використовує обрізані дерева, які присвоюють пропорції, а не мітки класу. По-друге, критерій зупинки - це заздалегідь визначена кількість дерев, а не деяка оцінка помилок, що знаходяться в кошику.

Моє запитання таке:

Чи можна підходити до вищевказаного процесу, який видає N дерев, за допомогою логістичної регресії з вибором LASSO? Хтось має досвід підгонки класифікатора довільного лісу та післяобробки з логістичним LASSO?

В рамках ISLE згадується використання LASSO як етапу після обробки для регресійних проблем, але не для проблем класифікації. Крім того, я не отримую корисних результатів під час гуглінгу "Випадкове лісове ласо".


Lasso добре знаходити / зважувати корисні функції, коли їх багато різної якості. Окремі дерева у вашому лісі, ймовірно, не будуть набагато кращими чи гіршими, ніж інші дерева, тому я не думаю, що ласо не допоможе вам сильно.
rrenaud

Шляхом вибірки невеликої фракції без заміни та обмеження глибини дерева вводиться більша різноманітність, тому я думаю, що деяка форма регуляризації є виправданою.
Zelazny7

Чи можете ви бути більш конкретними щодо того, як ви плануєте відповідати логістичній моделі? Що саме є змінними провісника? Також - яка ваша мотивація для післяобробки? Якщо ви намагаєтесь зробити вибір змінних, є й інші методи, які слід врахувати.
Алекс Вільямс

Виводячи передбачення кожного дерева, створюється новий набір прогнозів. Цей набір даних може бути використаний в регресії LASSO для досягнення розрізненої комбінації прогнозів дерева. Мотивація - це створення моделей, які є більш стислими і швидше працюють у виробництві.
Zelazny7

Нещодавно я зіткнувся з подібними проблемами, і в оригінальній статті Фрідмана я виявив , що він розробив функцію втрат спеціально для проблем бінарної класифікації. Сподіваюся, що це буде корисно. Крім того, чи маєте ви якесь уявлення про те, як поширити це на класичні проблеми класифікації? Або яким є ваш підхід до проблем класифікації у багатьох класах?
Куан

Відповіді:


5

Це звучить дещо як підвищення градієнтного дерева. Ідея стимулювання полягає у пошуку найкращого лінійного поєднання класу моделей. Якщо ми підходимо дерево до даних, ми намагаємось знайти дерево, яке найкраще пояснює змінну результатів. Якщо ми замість цього використовуємо прискорення, ми намагаємось знайти найкращу лінійну комбінацію дерев.

Однак, використовуючи прискорення, ми трохи ефективніші, оскільки у нас немає колекції випадкових дерев, але ми намагаємося створити нові дерева, які працюють на прикладах, які ми ще не можемо передбачити.

Детальніше про це я пропоную прочитати розділ 10 Елементів статистичного навчання: http://statweb.stanford.edu/~tibs/ElemStatLearn/

Хоча це не повна відповідь на ваше запитання, я сподіваюся, що це допоможе.


3
Спасибі. Оскільки я спочатку опублікував це питання, я дуже добре ознайомився з пакетом GB GB R. Зараз мій процес передбачає побудову моделі GBM, скажімо, 10 000 дерев, а потім запуску всіх 10000 дерев через GLMnet для виконання регресії LASSO на деревах. Це призводить до стислих моделей GBM з невеликими втратами продуктивності (а іноді і підвищенням).
Зелазний7,

@ Zelazny7 Як щодо жорстких даних про проведення тестування? Чи добре це прогнозує?
Джош

Так, усі мої тестування проводяться на витримці, яка жодним чином не інформує про розвиток. Продуктивність не знижується в більшості випадків. Іноді це трохи гірше, іноді навіть покращується.
Zelazny7

1
@ Zelazny7 Я також потрапив на ту саму процедуру (на останній роботі), з тим же досвідом.
Метью Друрі

Ви повинні бути в чомусь ... Сам Хасті пропонує післяобробляти дерева з випадкових лісів або збільшити їх за допомогою LASSO. Він згадується у цьому відео о 30:10.
Джонатан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.