Дякую за дуже гарне запитання! Я спробую дати свою інтуїцію за цим.
Щоб зрозуміти це, запам'ятайте "інгредієнти" випадкового лісового класифікатора (є деякі модифікації, але це загальний конвеєр):
- На кожному кроці побудови індивідуального дерева ми знаходимо найкращий поділ даних
- Під час створення дерева ми використовуємо не весь набір даних, а зразок завантаження
- Ми агрегуємо окремі результати дерев шляхом усереднення (фактично 2 і 3 означає разом більш загальну процедуру пакетування ).
Припустимо перший пункт. Не завжди вдається знайти найкращий розкол. Наприклад, у наступному наборі даних кожен розділ дасть рівно один об'єкт, що не відповідає класифікації.
І я думаю, що саме цей момент може бути заплутаним: дійсно, поведінка окремого розколу якимось чином схожа на поведінку класифікатора Naive Bayes: якщо змінні залежать - кращого розколу немає і для Дерева рішень, і класифікатора Naive Bayes також не вдасться (лише нагадую: незалежні змінні є основним припущенням, яке ми робимо в класифікаторі Naive Bayes; всі інші припущення виходять із імовірнісної моделі, яку ми обираємо).
Але ось велика перевага дерев рішень: ми робимо будь-який розкол і продовжуємо ділити далі. А для наступних розщеплень ми знайдемо ідеальну розлуку (червоним кольором).
І оскільки у нас немає імовірнісної моделі, а просто бінарного розколу, нам не потрібно робити жодних припущень.
Йшлося про Дерево рішень, але воно також стосується випадкових лісів. Різниця полягає в тому, що для Random Forest ми використовуємо агрегацію Bootstrap. У ній немає моделі, і єдине припущення, на яке вона покладається, - вибірка репрезентативна . Але це зазвичай поширене припущення. Наприклад, якщо один клас складається з двох компонентів, а в нашому наборі даних один компонент представлений 100 зразками, а інший компонент представлений 1 вибіркою - ймовірно, більшість окремих дерев рішень побачать лише перший компонент, а Random Forest буде неправильно класифікувати другий .
Сподіваюся, це дасть деяке подальше розуміння.