Чому мої випадкові лісові результати такі мінливі?

Я намагаюся перевірити здатність випадкових лісів класифікувати вибірки між 2 групами; Для класифікації використовується 54 зразки та різна кількість змінних.

Мені було цікаво, чому підрахунки "OOB" можуть змінюватись на 5% один від одного, навіть коли я використовую дерева з 50 кб? Це щось, у чому може допомогти завантажувальна програма?

machine-learning random-forest

— Сетзард
джерело

У вас є кілька зразків. 50k дерев не має сенсу з такою кількістю зразків. Варіант, швидше за все, лише один зразок, неправильно класифікований між тирами.

— ThiS

@ThiS Я думав, що збільшення кількості дерев зменшить кількість дисперсії, яку я отримаю. Чи є спосіб її зменшити до нуля або знати, який з них є найбільш точним?

— Сетзард

Є два джерела дисперсії OOB. Один - випадковість самої процедури; це можна зменшити за рахунок збільшення кількості дерев.

Іншим джерелом дисперсії є непридатна недосконалість обмеженості даних та життя у складному світі. Збільшення кількості дерев цього не вдається виправити.

Крім того, іноді просто не вистачає даних для вирішення проблеми. Наприклад, уявіть, що два екземпляри мають протилежні мітки, але однакові значення функції. Один з цих зразків завжди буде класифікованим. (Це надзвичайний приклад, але ілюструє, як деякі проблеми не піддається вирішенню. Ми можемо їх дещо розслабити, розглянувши крихітне збурення до одного вектора; тепер його зазвичай класифікують так само, як його двійника, але не завжди.) Щоб вирішити цю проблему , вам доведеться зібрати додаткові вимірювання для подальшого розмежування двох точок.

$p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ $\bar{x}$ $\sigma^2=0$

Невідмінна дисперсія не може бути виправлена завантажувальним завантаженням. Більше того, випадкові ліси вже завантажені; це частина причини, що вона має "випадковий" у своїй назві. (Інша причина полягає в тому, що при кожному розбитті вибирається випадковий набір функцій.)

— Sycorax каже, що відновіть Моніку
джерело