Випадкові лісові припущення


43

Я є новим випадковим лісом, тому все ще борюся з деякими основними поняттями.
При лінійній регресії ми передбачаємо незалежні спостереження, постійну дисперсію ...

  • Які основні припущення / гіпотези, які ми робимо, використовуючи випадковий ліс?
  • Які ключові відмінності між випадковими лісовими та наївними затоками з точки зору припущень моделі?

Відповіді:


33

Дякую за дуже гарне запитання! Я спробую дати свою інтуїцію за цим.

Щоб зрозуміти це, запам'ятайте "інгредієнти" випадкового лісового класифікатора (є деякі модифікації, але це загальний конвеєр):

  1. На кожному кроці побудови індивідуального дерева ми знаходимо найкращий поділ даних
  2. Під час створення дерева ми використовуємо не весь набір даних, а зразок завантаження
  3. Ми агрегуємо окремі результати дерев шляхом усереднення (фактично 2 і 3 означає разом більш загальну процедуру пакетування ).

Припустимо перший пункт. Не завжди вдається знайти найкращий розкол. Наприклад, у наступному наборі даних кожен розділ дасть рівно один об'єкт, що не відповідає класифікації. Приклад набору даних без найкращого поділу

І я думаю, що саме цей момент може бути заплутаним: дійсно, поведінка окремого розколу якимось чином схожа на поведінку класифікатора Naive Bayes: якщо змінні залежать - кращого розколу немає і для Дерева рішень, і класифікатора Naive Bayes також не вдасться (лише нагадую: незалежні змінні є основним припущенням, яке ми робимо в класифікаторі Naive Bayes; всі інші припущення виходять із імовірнісної моделі, яку ми обираємо).

Але ось велика перевага дерев рішень: ми робимо будь-який розкол і продовжуємо ділити далі. А для наступних розщеплень ми знайдемо ідеальну розлуку (червоним кольором). Приклад межі рішення

І оскільки у нас немає імовірнісної моделі, а просто бінарного розколу, нам не потрібно робити жодних припущень.

Йшлося про Дерево рішень, але воно також стосується випадкових лісів. Різниця полягає в тому, що для Random Forest ми використовуємо агрегацію Bootstrap. У ній немає моделі, і єдине припущення, на яке вона покладається, - вибірка репрезентативна . Але це зазвичай поширене припущення. Наприклад, якщо один клас складається з двох компонентів, а в нашому наборі даних один компонент представлений 100 зразками, а інший компонент представлений 1 вибіркою - ймовірно, більшість окремих дерев рішень побачать лише перший компонент, а Random Forest буде неправильно класифікувати другий . Приклад слабо представленого другого компонента

Сподіваюся, це дасть деяке подальше розуміння.


10

В одному документі за 2010 рік автори задокументували, що випадкові лісові моделі ненадійно оцінювали важливість змінних, коли змінні були мультиколінарними у багатовимірному статистичному просторі. Я зазвичай перевіряю це перед тим, як запускати випадкові лісові моделі.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
Ви вважаєте, що висновки "Кількісне визначення зв’язків борів Буфо в Національному парку Йеллоустоун з ландшафтною генетикою" в галузі екології авторами штату Колорадо над авторами Берклі в машинному навчанні на тему алгоритмів машинного навчання?
Hack-R

8
Я не думаю, що вони суперечать один одному. Брейман не досліджував цей «особливий випадок» мультиколінельності у багатовимірному просторі. Також люди в штаті Колорадо теж можуть бути розумними - і це хлопці.
Міна
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.