Я зовсім новачок у машинному навчанні, CART-техніці тощо, і я сподіваюся, що моя наївність не надто очевидна.
Як Random Forest обробляє багаторівневі / ієрархічні структури даних (наприклад, коли взаємозв'язок на рівні рівнів представляє інтерес)?
Тобто набори даних з одиницями аналізу на декількох ієрархічних рівнях ( наприклад , учні вкладені в школи, з даними як про учнів, так і про школи).
В якості прикладу розглянемо багаторівневий набір даних з особами першого рівня ( наприклад , з даними про поведінку при голосуванні, демографією тощо), що вкладаються у країни на другому рівні (з даними на рівні країни; наприклад , кількість населення):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Давайте скажемо, що voted
це змінна відповідь / залежність, а інші - прогнозні / незалежні змінні. У таких типах випадків граничні та граничні ефекти змінної (часткова залежність) для певної змінної вищого рівня ( наприклад , population
) для різних змінних індивідуального рівня тощо можуть бути дуже цікавими. У випадку, подібному до цього, glm
звичайно, доцільніше - але коли існує багато змінних, взаємодій та / або відсутніх значень, та / або дуже масштабних наборів даних тощо, glm
це не так надійно.
Підпитання: Чи може випадковий ліс явним чином обробляти подібний тип даних? Якщо використовуватись незалежно, то який ухил він вводить? Якщо випадковий ліс не підходить, чи існує якийсь інший тип ансамблевого типу?
(Питання Випадковий ліс за згрупованими даними , можливо, подібний, але насправді на це не відповідає.)