Статистика та великі дані random-forest

1

Чи використовує випадковий ліс Бреймана посилення інформації або індекс Джині?

Мені хотілося б знати, чи використовує випадковий ліс Бреймана (випадковий ліс у пакеті R randomForest) як критерій розщеплення (критерій вибору атрибутів) посилення інформації або індекс Джині? Я спробував це знайти на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm та в документації для пакету randomForest в R. Але єдине, що я знайшов - це те, що індекс …

15 r random-forest entropy gini

1

Зменшення Джині та домішка Джині у дитячих вузлах

Я працюю над мірою важливості функції Джині для випадкових лісів. Тому мені потрібно обчислити зменшення домішки вузла Джіні. Ось як я це роблю, що призводить до конфлікту з визначенням, що говорить про те, що я десь повинен помилятися ... :) Для двійкового дерева та, враховуючи ймовірність лівих і правих дітей, …

15 feature-selection random-forest cart

7

Випадковий ліс витончений

Я намагаюся використовувати випадкову регресію лісу в науках-учах. Проблема в тому, що я отримую дійсно високу помилку тесту: train MSE, 4.64, test MSE: 252.25. Ось так виглядають мої дані: (синій: реальні дані, зелений: передбачуваний): Я використовую 90% для тренувань і 10% для тесту. Це код, який я використовую після спробу …

15 regression random-forest scikit-learn

1

Як слід реалізувати розбиття дерева рішень при прогнозуванні постійних змінних?

Я фактично пишу реалізацію випадкових лісів, але я вважаю, що питання стосується дерев рішень (незалежно від РФ). Отже, контекст полягає в тому, що я створюю вузол у дереві рішень, і змінні прогнозування, і цілі є безперервними. Вузол має розділений поріг для даних розділів на два набори, і я створюю новий …

15 algorithms cart random-forest

1

Включення умов взаємодії у випадковій лісі

Припустимо, у нас є відповідь Y та предиктори X1, ...., Xn. Якби ми намагалися вписати Y за допомогою лінійної моделі X1, ...., Xn, і просто так сталося, що справжня залежність між Y і X1, ..., Xn не була лінійною, ми могли б бути в змозі щоб виправити модель, трансформуючи X …

15 machine-learning random-forest

2

Чому функція bootstrap scikit-learn переутворює тестовий набір?

Під час використання завантажувальної програми для оцінки моделі, я завжди вважав, що зразки з мішків безпосередньо використовуються як тестовий набір. Однак, як видається, це не стосується застарілого підходу наукової роботиBootstrap , який, здається, будує тестовий набір із малювання із заміною із підмножини даних із пакета. Які статистичні міркування стоять за …

15 cross-validation bootstrap random-forest scikit-learn bagging

1

Які алгоритми пакетування гідні наступників Random Forest?

Щодо прискорення алгоритмів, я б сказав, що вони розвивалися досить добре. На початку 1995 року була представлена AdaBoost, потім через деякий час це була градієнтна машина для підсилення (GBM). Нещодавно, близько 2015 року, було представлено XGBoost, який є точним, справляється з оснащенням і став переможцем кількох змагань Kaggle. У 2017 …

14 random-forest boosting bagging

2

Різні результати від randomForest за допомогою карети та базового пакету randomForest

Я трохи розгублений: як результати тренованої моделі за допомогою карети можуть відрізнятися від моделі в оригінальній упаковці? Читаю, чи потрібна попередня обробка перед прогнозуванням за допомогою FinalModel of RandomForest з пакетом caret?але я тут не використовую жодної попередньої обробки. Я навчав різні випадкові ліси, використовуючи пакет карет і налаштовуючи різні …

14 r machine-learning random-forest caret train

3

Зважування останніх даних у моделі Random Forest

Я треную класифікаційну модель із випадковим лісом для розмежування між 6 категоріями. Мої трансакційні дані мають приблизно 60 К + спостережень та 35 змінних. Ось приклад того, як це приблизно виглядає. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | …

14 r machine-learning classification random-forest

1

Використання LASSO на випадкових лісах

Я хотів би створити випадковий ліс, використовуючи наступний процес: Побудуйте дерево на випадкових вибірках даних і особливостей, використовуючи посилення інформації для визначення розбиття Припиніть вузол листя, якщо він перевищує заздалегідь задану глибину АБО будь-який розкол призведе до того, що кількість листків буде меншою за попередньо визначений мінімум Замість того, щоб …

14 classification random-forest lasso ensemble

1

RandomForest - інтерпретація сюжету MDS

Я використовував randomForest, щоб класифікувати 6 поведінки тварин (наприклад, стоячи, ходити, плавати тощо) на основі 8 змінних (різні пози тіла та руху). MDSplot в пакеті randomForest дає мені цей результат, і у мене виникають проблеми з інтерпретацією результату. Я зробив PCA на одних і тих же даних і отримав приємне …

14 r classification random-forest multidimensional-scaling

2

Чому оцінка випадкової помилки OOB в лісовій галузі покращується, коли кількість вибраних функцій зменшується?

Я застосовую алгоритм випадкового лісу як класифікатор до набору даних мікромасив, які розділені на дві відомі групи з 1000-ма функціями. Після початкового запуску я переглядаю важливість функцій і знову запускаю алгоритм дерева з 5, 10 та 20 найважливішими функціями. Я вважаю, що для всіх функцій, топ-10 та 20, показник помилок …

14 r machine-learning classification random-forest

3

Як моделювати поздовжні великі дані?

Традиційно ми використовуємо змішану модель для моделювання поздовжніх даних, тобто таких даних, як: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 ми можемо припустити випадковий перехоплення або нахил …

14 machine-learning data-transformation random-forest panel-data large-data

3

R: Що я бачу в часткових залежностях графіків gbm та RandomForest?

Власне, я думав, що зрозумів, що можна показати за допомогою часткової залежності, але, використовуючи дуже простий гіпотетичний приклад, я здивувався. У наступному фрагменті коду я генерую три незалежні змінні ( a , b , c ) та одну залежну змінну ( y ) з c, що показує тісний лінійний зв’язок …

14 r random-forest boosting partial-plot

1

Випадковий ліс та передбачення

Я намагаюся зрозуміти, як працює Випадковий ліс. Я розумію, як будуються дерева, але не можу зрозуміти, як випадковий ліс робить передбачення щодо зразка мішка. Хтось може мені дати просте пояснення, будь ласка? :)

14 random-forest prediction

Запитання з тегом «random-forest»