Запитання з тегом «random-forest»

Випадковий ліс - це метод машинного навчання, заснований на поєднанні результатів багатьох дерев рішень.

3
PCA на текстових даних з великими розмірами до випадкової лісової класифікації?
Чи є сенс робити PCA перед проведенням випадкової лісової класифікації? Я маю справу з текстовими даними з високими розмірами, і я хочу зробити зменшення функції, щоб уникнути прокляття розмірності, але чи не випадкові ліси вже мають якесь зменшення розмірності?

5
Випадковий алгоритм лісу та дерева рішень
Випадковий ліс - це сукупність дерев рішень, що дотримуються концепції сміття. Коли ми переходимо від одного дерева рішень до наступного дерева рішень, то як інформація, отримана за останнім деревом рішення, рухається вперед до наступного? Тому що, наскільки я розумію, немає нічого подібного до навченої моделі, яка створюється для кожного дерева …

3
Які повинні бути оптимальні параметри для класифікатора випадкових лісів?
В даний час я використовую RF інструментарій на MATLAB для проблеми бінарної класифікації Набір даних: 50000 зразків та понад 250 функцій Отже, якою має бути кількість дерев та випадково обрана функція на кожному розрізі, щоб виростити дерева? може будь-який інший параметр сильно впливає на результати?

4
Чи варто турбуватися про мультиколінеарність при використанні нелінійних моделей?
Скажімо, у нас є проблема бінарної класифікації з переважно категоричними ознаками. Ми використовуємо деяку нелінійну модель (наприклад, XGBoost або Random Forests), щоб дізнатися її. Чи варто все-таки турбуватися про багатоколірність? Чому? Якщо відповідь на вищезазначене відповідає дійсності, як з цим боротися, враховуючи, що використовуються ці типи нелінійних моделей?

1
Оцініть випадковий ліс: OOB vs CV
Коли ми оцінюємо якість випадкового лісу, наприклад, використовуючи AUC, чи є більш доцільним обчислити ці величини за зразками з мішків або над набором перехресних перевірок? Я чую, що обчислення його через зразки OOB дає більш песимістичну оцінку, але не розумію, чому.

3
Чи є випадкові лісові та підсилювальні параметричні чи непараметричні?
Читаючи чудове статистичне моделювання: Дві культури (Брейман 2001) , ми зможемо використати всю різницю між традиційними статистичними моделями (наприклад, лінійною регресією) та алгоритмами машинного навчання (наприклад, Baging, Random Forest, Boosted дерева ...). Брейман критикує моделі даних (параметричні), оскільки вони ґрунтуються на припущенні, що спостереження породжуються відомою формальною моделлю, призначеною статистиком, …

3
Випадковий ліс на багаторівневих / ієрархічно структурованих даних
Я зовсім новачок у машинному навчанні, CART-техніці тощо, і я сподіваюся, що моя наївність не надто очевидна. Як Random Forest обробляє багаторівневі / ієрархічні структури даних (наприклад, коли взаємозв'язок на рівні рівнів представляє інтерес)? Тобто набори даних з одиницями аналізу на декількох ієрархічних рівнях ( наприклад , учні вкладені в …

2
Коли увійти / випробувати свої змінні під час використання випадкових лісових моделей?
Я роблю регресію, використовуючи випадкові ліси для прогнозування цін на основі декількох ознак. Код пишеться на Python за допомогою Scikit-learn. Як ви вирішите, чи слід трансформувати свої змінні, використовуючи exp/ logперед тим, як використовувати їх, щоб відповідати регресійній моделі? Чи потрібно це використовувати підхід Ансамблю, такий як випадковий ліс?

6
Випадковий ліс: як поводитися з новими рівнями факторів у тестовому наборі?
Я намагаюся робити прогнози, використовуючи випадкову лісову модель у Р. Однак я отримую помилки, оскільки деякі фактори мають різні значення в тестовому наборі, ніж у навчальному наборі. Наприклад, коефіцієнт Cat_2має значення 34, 68, 76тощо у тестовому наборі, які не відображаються у навчальному наборі. На жаль, я не маю контролю над …

3
Чи є формула або правило для визначення правильного sampSize для randomForest?
Я граю з randomForest і виявив, що загалом збільшення sampSize призводить до кращої продуктивності. Чи існує правило / формула / тощо, яке підказує, яким повинен бути оптимальний sampSize або це річ проб і помилок? Я здогадуюсь іншого способу її фразування; які мої ризики занадто малого розміру sampSize або занадто великого …
13 r  random-forest 

1
Чому у випадковому лісі чомусь випадковий підмножина функцій вибирається на рівні вузла, а не на рівні дерева?
Моє запитання: Чому випадковий ліс розглядає випадкові підмножини ознак для розщеплення на рівні вузла в межах кожного дерева, а не на рівні дерева ? Передумови: Це щось із питань історії. Тін Кам Хо опублікував цю статтю про будівництво «рішення лісу» шляхом випадкового вибору підмножини функцій для використання для вирощування кожного …

1
Як Kinect використовує випадкові ліси?
Я читав на цьому сайті, що, очевидно, Kinect певним чином використовує алгоритм випадкових лісів для машинного навчання. Чи може хтось пояснити, для чого він використовує випадкові ліси та як працює їхній підхід?

2
Чи підходить випадковий ліс для дуже малих наборів даних?
У мене є набір даних, що включає 24 рядки щомісячних даних. Особливості - ВВП, прибуття в аеропорт, місяць та кілька інших. Залежна змінна - кількість відвідувачів популярного туристичного напряму. Чи підійде випадковий ліс для такої проблеми? Дані не є загальнодоступними, тому я не можу розмістити зразок.


2
Найкращі практики кодування категоричних ознак для дерев рішень?
При кодуванні категоричних ознак для лінійної регресії існує правило: кількість манекенів має бути на одну меншу, ніж загальна кількість рівнів (щоб уникнути колінеарності). Чи існує подібне правило для дерев рішень (мішковане, підсилене)? Я запитую це тому, що стандартною практикою в Python, здається, є розширення nрівнів на nманекени (sklearns ' OneHotEncoderабо …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.