Випадковий ліс за згрупованими даними

11

Я використовую випадковий ліс на високомірних згрупованих даних (50 числових вхідних змінних), які мають ієрахічну структуру. Дані були зібрані з 6-ти реплікацій на 30 позиціях 70 різних об'єктів, що призводить до 12600 точок даних, які не є незалежними.

Здається, випадковий ліс надмірно підходить для даних, оскільки помилка oob набагато менша, ніж помилка, яку ми отримуємо під час виходу даних з одного об’єкта під час тренувань, а потім передбачення результату залишеного об'єкта з навченим випадковим лісом. Більше того, я співвідносив залишки.

Я думаю, що перевитрата викликана тим, що випадковий ліс очікує незалежних даних. Чи можна розповісти випадковому лісу про ієрархічну структуру даних? Або існує інший потужний ансамбль чи метод усадки, який може обробляти згруповані дані з великими розмірами з сильною структурою взаємодії?

Будь-який натяк, як я можу зробити краще?

regression random-forest

— Beate
джерело

Яка природа ієрархічних даних? Чи дозволяє вам використовувати листя даних у якості точок даних?

— casperOne

1

Чи вважали ви завантаженням найвищого рівня ієрархії, а не окремим?

— generic_user

1

Дуже пізно до партії, але я думаю, що це може бути пов'язане з чимось, що я робив кілька років тому. Ця робота була опублікована тут:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

і стосується вирішення змінної кореляції в ансамблі дерев рішень. Ви повинні ознайомитись з бібліографією, яка вказує на безліч пропозицій щодо розгляду цього типу питань (що є загальним у "генетичній" області).

Вихідний код доступний тут (але насправді вже не підтримується).

— 0asa
джерело

-1

Перезміщення випадкового лісу може бути викликане різними причинами, і це сильно залежить від параметрів РФ. З публікації незрозуміло, як ви налаштували свій радіочастот.

Ось кілька порад, які можуть допомогти:

Збільшити кількість дерев
Налаштуйте максимальну глибину дерев. Цей параметр сильно залежить від проблеми. Використання менших дерев може допомогти у вирішенні проблем.

— Белла Фадіда
джерело

2

Дуже пізно до партії, але ця відповідь не вирішить жодних проблем через ієрархічність набору даних.

— cbeleites незадоволений SX