Чи виявляються випадкові ліси упередженими прогнозами?


12

Я думаю, що це прямо запитання, хоча міркувань, чому це може статися, чому ні, не може бути. Причина, яку я запитую, - це те, що я нещодавно написав власну реалізацію РФ, і хоча вона працює добре, вона не є такою добре, як я очікувала (на основі набору даних змагань з прогнозування якості фотографій Kaggle Photo , виграшних балів та деяких із них наступна інформація, яка з’явилася доступною про те, які методи використовуються).

Перше, що я роблю в таких умовах - це помилка прогнозування сюжету для моєї моделі, тому для кожного заданого значення прогнозування я визначаю середнє зміщення (або відхилення) від правильного цільового значення. Для мого РФ я отримав такий сюжет:

Значення прогнозування порівняно з ухилом від правильного цільового значення

Мені цікаво, чи це загальноприйнята модель зміщення для РФ (якщо ні, то, можливо, це може бути щось специфічне для набору даних та / або моєї реалізації). Звичайно, я можу використовувати цей сюжет для поліпшення прогнозів, використовуючи його для компенсації упередженості, але мені цікаво, чи є більш фундаментальна помилка чи недолік у самій моделі РФ, яка потребує вирішення. Дякую.

== ДОДАТИ ==

Моє первісне розслідування в цьому записі в блозі Випадкові ухили лісу - оновлення


2
Це може бути особливістю ваших даних; ви намагалися запустити іншу реалізацію РФ на одному і тому ж наборі даних, щоб побачити, чи він відтворює цей ефект?

Відповіді:


4

далеко не експерт. Це просто місінг молодшого статистичного лікаря, який займався різними, але слабко аналогічними питаннями. Моя відповідь може бути поза контекстом.)

З огляду на новий зразок, який потрібно передбачити, і оракул, який має доступ до набагато більшого навчального набору, тоді, можливо, "найкращим" і найчеснішим прогнозом є "Я прогнозую з 60% ймовірністю, що це належить до класу Червоних, а не клас Блакитний ".

Наведу більш конкретний приклад. Уявіть, що в нашому дуже великому навчальному наборі є великий набір зразків, які дуже схожі на наш новий зразок. З них 60% - сині, а 40% - червоні. І, здається, немає нічого, чим можна відрізнити Блюз від Червоного. У такому випадку очевидно, що 60% / 40% - це єдиний прогноз, який може зробити розумна людина.

Звичайно, у нас такого оракула немає, натомість у нас багато дерев. Прості дерева рішень нездатні робити ці 60% / 40% передбачень, а отже, кожне дерево зробить дискретний прогноз (червоний або синій, нічого між ними). Оскільки цей новий зразок потрапляє просто на червону сторону поверхні рішення, ви побачите, що майже всі дерева прогнозують червоний, а не синій. Кожне дерево видається більш впевненим, ніж воно є, і воно починає випробовувати упереджене передбачення.

Проблема полягає в тому, що ми схильні неправильно трактувати рішення з одного дерева. Коли одне дерево ставить вузол у класі Red, ми не повинні трактувати це як 100% / 0% передбачення від дерева. (Я не просто кажу, що ми «знаємо», що це, мабуть, поганий прогноз. Я кажу щось сильніше, тобто, що ми повинні бути обережними, інтерпретуючи як прогнозування дерева). Я не можу коротко розширити, як це виправити. Але можна запозичити ідеї з областей статистики про те, як побудувати більш «нечіткі» розколи в межах дерева, щоб заохотити одне дерево бути більш чесним щодо його невизначеності. Тоді має бути можливість змістовно оцінити прогнози з лісу дерев.

Я сподіваюся, що це трохи допомагає. Якщо ні, то сподіваюся дізнатися з будь-яких відповідей.


Нечіткий розпадається, зрозумів це, в дусі екстремальної РФ (але, можливо, не настільки екстремально?). Я спробую це, оскільки ваше пояснення має для мене сенс. Дякую.
redcalx

[Випадковий ліс - думки про проблему зміщення] ( the-locster.livejournal.com/134241.html ) "Ключовим моментом (на мою думку) є використання нерівномірної рандомізації [цих порогів розбиття] таким, що набір усіх Точки розділення, якщо їх поєднувати, відтворять y = f (x) і підійдуть досконалим поданням y = f (x), оскільки кількість DT в РФ прагне до нескінченності ".
redcalx

Чи не врахували б прогнози на 60/40% деревом регресії? Співвідношення довіри буде класовим співвідношенням у розділі аркуша (для навчального набору). Можливо , це може / була розширена , щоб мати справу зі статистичною потужності теж
Alter

3

Так. Більшість дерев мають упередження у хвостах. Побачити:

Як слід реалізувати розбиття дерева рішень при прогнозуванні постійних змінних?

"Одна з потенційних проблем з деревами полягає в тому, що вони, як правило, погано вписуються в хвости. Подумайте про термінальний вузол, який фіксує низький діапазон навчального набору. Він передбачить, використовуючи середнє значення для тих навчальних задач, які завжди будуть недостатньо передбачати результат (оскільки це середній) ".


Я не думаю, що коментар стосується випадкових лісів
Зак

Я вважаю, що референтна реалізація випадкових лісів припиняється на ~ 5 спостереженнях у вузлах, коли змінна реакції є безперервною. Це все одно вводить невелику кількість упередженості, якби змінна розщеплення була також безперервною. Подібно до того, чому LOESS часто виглядає краще, ніж центральна ковзаюча середня частина по краях опори ...
Ши Паркс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.