Чому мої випадкові лісові результати такі мінливі?


10

Я намагаюся перевірити здатність випадкових лісів класифікувати вибірки між 2 групами; Для класифікації використовується 54 зразки та різна кількість змінних.

Мені було цікаво, чому підрахунки "OOB" можуть змінюватись на 5% один від одного, навіть коли я використовую дерева з 50 кб? Це щось, у чому може допомогти завантажувальна програма?


6
У вас є кілька зразків. 50k дерев не має сенсу з такою кількістю зразків. Варіант, швидше за все, лише один зразок, неправильно класифікований між тирами.
ThiS

@ThiS Я думав, що збільшення кількості дерев зменшить кількість дисперсії, яку я отримаю. Чи є спосіб її зменшити до нуля або знати, який з них є найбільш точним?
Сетзард

Відповіді:


12

Є два джерела дисперсії OOB. Один - випадковість самої процедури; це можна зменшити за рахунок збільшення кількості дерев.

Іншим джерелом дисперсії є непридатна недосконалість обмеженості даних та життя у складному світі. Збільшення кількості дерев цього не вдається виправити.

Крім того, іноді просто не вистачає даних для вирішення проблеми. Наприклад, уявіть, що два екземпляри мають протилежні мітки, але однакові значення функції. Один з цих зразків завжди буде класифікованим. (Це надзвичайний приклад, але ілюструє, як деякі проблеми не піддається вирішенню. Ми можемо їх дещо розслабити, розглянувши крихітне збурення до одного вектора; тепер його зазвичай класифікують так само, як його двійника, але не завжди.) Щоб вирішити цю проблему , вам доведеться зібрати додаткові вимірювання для подальшого розмежування двох точок.

p(у=1|х)х¯х¯х¯N(мк,σ2н)мкσ2х¯σ2=0

Невідмінна дисперсія не може бути виправлена ​​завантажувальним завантаженням. Більше того, випадкові ліси вже завантажені; це частина причини, що вона має "випадковий" у своїй назві. (Інша причина полягає в тому, що при кожному розбитті вибирається випадковий набір функцій.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.