Он-лайн випадкові ліси, додаючи більше одиничних дерев рішень

Випадковий ліс (РФ) створюється ансамблем дерев рішень (DT). За допомогою пакетування кожен DT навчається в різному наборі даних. Отже, чи є спосіб впровадження он-лайн випадкового лісу шляхом додавання більшої кількості рішень для нових даних?

Наприклад, ми маємо 10К зразків і навчаємо 10 ДТ. Потім ми отримуємо зразки 1К, і замість того, щоб знову тренувати повний РФ, ми додаємо новий DT. Прогнозування зараз виконується середнім байєсівським значенням 10 + 1 DT.

Крім того, якщо ми збережемо всі попередні дані, нові DT можуть бути навчені головним чином за новими даними, де ймовірність відбору зразка зважується залежно від того, скільки разів вже відібрано.

random-forest online-learning

— ташушка
джерело

Існує нещодавній документ на цю тему ( On-line Random Forests ), який виходить із комп'ютерного зору. Ось реалізація та презентація: Інтернет-випадкові ліси за 10 хвилин

— Емре
джерело

Здійснення, про яке ви згадали, відповідає стратегії вирощування дерев, як мондрійські ліси ( arxiv.org/abs/1406.2673 ). Отже, кількість дерев є постійною, а кількість розщеплень збільшується. Моє питання зосереджується на збільшенні кількості дерев для нових зразків, залишаючись недоторканими раніше дресированих дерев.

— ташушка

Як це ? Ви також не хочете скидати дерева, якщо це доречно?

— Емре

Дякую. Це більше схоже на те, що я шукаю. У цьому випадку використовують RF для вибору функції сигналів варіанту часу. Однак конкретна реалізація та обґрунтованість методу досить незрозуміла, чи знаєте ви, чи опублікували вони щось (Google не допомогло)?

— tashuhka

Розрахунок важливості функції у потоках даних із затримкою концепції за допомогою випадкового лісу в Інтернеті

— Емре

Дякуємо за посилання! Я бачу, що вони фактично оновлюють усі попередні дерева за допомогою стратегії вирощування дерев, і мені цікаво створити нові DT за допомогою нових даних, зберігаючи недоторкані старі дерева.

— ташушка