Чи можливий / практичний випадковий ліс з кількома виходами?


17
  1. Випадкові ліси (RFs) - конкурентоспроможний метод моделювання / видобутку даних.

  2. Модель РФ має один вихід - змінну виводу / прогнозування.

  3. Наївним підходом до моделювання декількох виходів з радіочастотними сигналами було б побудова RF для кожної вихідної змінної. Таким чином, ми маємо N незалежних моделей, і там, де є кореляція між вихідними змінними, ми матимемо надлишкову / дублюючу структуру моделі. Дійсно, це може бути дуже марно. Також, як правило, більше змінних моделей передбачає більш надмірну модель (менше узагальнення). Не впевнений, чи це стосується тут, але це, мабуть, так.

В принципі, ми могли б мати РЧ з декількома виходами. Змінна прогнозування тепер є вектором (n-кортеж). Вузли рішення у кожному дереві рішення тепер розділяють набір цільових / прогнозуючих векторів на основі порогового вектора, я вважаю, що цей поріг вважається площиною в n-мірному просторі, і тому ми можемо визначити, яка сторона порогу вектор, кожен з цільових векторів включений.

Оптимальне значення прогнозування для кожної сторони розбиття рішення - це середнє значення (центроїд), обчислене для векторів з кожної сторони.

Пошук оптимальної точки розбиття при роботі з окремими змінними є тривіальним та обчислювально швидким / ефективним. Для n-кортежу ми не можемо знайти оптимального розщеплення (або принаймні це стає обчислювально нездійсненно при збільшенні N), але ми можемо знайти майже оптимальний розкол за допомогою методу типу Монте-Карло (або якогось гібриду Монте-Карло та місцевих обхід градієнта).

Це б насправді спрацювало? Тобто, чи було б просто відображення тренувальних пар без генералізації? Чи існує ця методика вже під іншою назвою?

Ви також можете розглянути, як це стосується нейронних мереж, таких як обмежені машини Больцмана (МБР) та мережі глибокої віри.


"Багатошаровий випадковий ліс" в Google "показує, що це було зроблено навіть декількома різними способами; у будь-якому випадку, я граю з цим підходом до багатьох музичних даних, і це було дуже добре.

1
Я б запропонував вам цю статтю . Вони роблять щось дуже близьке до того, що ви описали.
Дмитро Лаптєв

2
Це вже існує в пакеті партії та деяких інших пакетах (мова R).
Jase

Відповіді:


8

Розроблено та опубліковано декілька дерев прийняття рішень (а отже, і випадкові ліси). П’єр Герц поширює пакет для цього ( завантажити). Дивіться також Segal & Xiao, Багатоваріантні випадкові ліси, WIREs Data Mining Knowl Discov 2011 1 80–87, DOI: 10.1002 / widm.12 Я вважаю, що остання версія Scikit-learn також підтримує це. Хороший огляд сучасного рівня можна знайти в дисертації Генріка Лінуссона під назвою "МНОГО-ВИПУСКОВІ ЛІСНІ СИЛИ". Найпростіший спосіб зробити вибір розділення на кожному вузлі - випадковим чином вибрати ОДИН із вихідних змінних, а потім дотримуватися звичайного випадкового лісового підходу для вибору розколу. Були розроблені інші методи, що базуються на зваженій сумі взаємної інформації інформації стосовно кожної вхідної характеристики та змінної виходу, але вони є досить дорогими порівняно з рандомізованим підходом.


-1

Як зазначено тут :

Усі класифікатори в scikit-learn роблять класичну класифікацію нестандартною.

І це включає випадковий ліс.

Також на сторінці: http://scikit-learn.org/stable/modules/tree.html#tree-multioutput є багато посилань на цю тему.


8
Бути зрозумілим; питання стосується регресії з кількома виходами .
redcalx

Вибачте за запізнення у моїй відповіді, але схоже, що scikit-learn пропонує і багаторезультатну регресію, наприклад: scikit-learn.org/stable/auto_examples/tree/… І в будь-якому випадку є стратегія, яка складається з пристосування до неї регресора на ціль. Це проста стратегія для розширення регресорів, які в основному не підтримують багатоцільову регресію: scikit-learn.org/stable/modules/generated/… HTH
0asa
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.