Обмеження методів ансамблю на основі дерев у малих n, великих p задачах?

10

Методи ансамблю на основі дерев, такі як "Випадковий ліс" та наступні похідні (наприклад, умовний ліс), усі вони вважають корисними у так званих "малих n , великих p " проблемах для визначення відносної змінної важливості. Дійсно, це так і є, але моє питання полягає в тому, наскільки далеко можна взяти цю здатність? Чи можна мати, скажімо, 30 спостережень і 100 змінних? Що є переломним для такого підходу, і чи існують якісь пристойні правила? Я вважаю за краще і прийму відповіді, підкріплені посиланнями на фактичні докази (а не на думку), використовуючи або симульовані, або реальні набори даних. Я не знайшов багато про останні ( тут і тут)), тож ваші думки / поради / (по темі) довідкові пропозиції найкраще вітаються!

random-forest small-sample ensemble

— Пророк60091
джерело

3

Я підозрюю, що остаточної відповіді на це питання не буде, поки не будуть проведені деякі імітаційні дослідження. Тим часом я знайшов випадкові ліси Genuer et al : деякі методологічні уявлення допомогли поставити певну точку зору на це питання, принаймні з точки зору тестування РФ на різні набори даних "n n, high p". Деякі з цих наборів даних мають> 5000 предикторів та <100 спостережень !!

— Пророк60091
джерело

3

Режим відмови, з яким ви зіткнетесь, полягає в тому, що при достатній кількості випадкових особливостей існуватимуть функції, які відносяться до цілі в мішечкових зразках, використовуваних для кожного дерева, але не в межах більшого набору даних. Аналогічна проблема, що спостерігається при багаторазовому тестуванні.

Для цього важко розробити правила, оскільки точна точка, в якій це відбувається, залежить від кількості шуму і сили сигналу в даних. Існують також методи, які вирішують це за допомогою використання декількох виправлених виправлених p-значень як критеріїв розщеплення, виконуючи крок вибору функції на основі змінної важливості та / або порівняння імпортних ознак із характеристиками штучного контрасту, що виробляються шляхом випадкового перестановки фактичної характеристики, використання сумки для перевірки розділеного вибору та інших методів. Вони можуть бути надзвичайно ефективними.

Я використовував випадкові ліси (включаючи деякі з перерахованих вище методологічних виправлень) для наборів даних з ~ 1000 випадків і 30 000-1 000 000 функцій. (Набори даних у генетиці людини з різним рівнем вибору ознак чи інженерії). Вони, безумовно, можуть бути ефективними для відновлення сильного сигналу (або пакетного ефекту) в таких даних, але не дуже добре поєднувати щось на зразок захворювання з гетерогенними причинами, оскільки кількість випадкових варіацій долає кожен сигнал

— Райан Бресслер
джерело

0

Це також залежатиме від сигналу та шуму у ваших даних. Якщо ваша залежна змінна досить добре пояснюється поєднанням змінних у вашій моделі, ніж я думаю, ви можете піти з меншим співвідношенням n / p.

Я підозрюю, що для отримання гідної моделі крім простого співвідношення також знадобиться абсолютна мінімальна кількість n.

Один із способів подивитися на це - це те, що кожне дерево будується за допомогою змінних SQRT (p), і якщо це число велике, а кількість точок - маленькі дерева, можна встановити, не маючи реальної моделі там. Отже, багато таких пересталених дерев надаватимуть помилкової змінної важливості.

Зазвичай, якщо у діаграмі важливості зі змінною важливістю я бачу безліч топових змінних з майже однаковим рівнем важливості, я роблю висновок, що це видає мені просто шум.

— DeepakML
джерело

Звідки береться SQRT (p)?

— LauriK

У RandomForest кожне дерево будується за допомогою вибірки змінних. За замовчуванням (принаймні, в R randomForest пакет) значення, яке воно приймає, є найближчим числом, меншим або рівним SQRT (p), де p - кількість стовпців.

— DeepakML