Запитання з тегом «cart»

"Дерева класифікації та регресії". CART - популярна техніка машинного навчання, і вона є основою для таких методів, як випадкові ліси та загальні впровадження машин для збільшення градієнтів.

9
Отримання знань з випадкового лісу
Випадкові ліси вважаються чорними ящиками, але останнім часом я думав, які знання можна отримати з випадкового лісу? Найбільш очевидною є важливість змінних, у найпростішому варіанті це можна зробити, просто обчисливши кількість зустрічей змінної. Друге, про що я думав - це взаємодії. Я думаю, що якщо кількість дерев є достатньо великою, …

2
Градієнт, що підсилює дерево проти випадкового лісу
Підвищення градієнтного дерева, запропоноване Фрідманом, використовує дерева рішень як базових учнів. Мені цікаво, чи варто робити базове дерево рішень максимально складним (повністю вирощеним) чи простішим? Чи є пояснення щодо вибору? Випадковий ліс - ще один ансамблевий метод, що використовує дерева рішень як базових учнів. Виходячи з мого розуміння, ми зазвичай …

1
Дерева умовного висновку проти дерев традиційних рішень
Чи може хто-небудь пояснити первинні відмінності між умовними деревами висновку ( ctreeвід partyпакета в R) порівняно з більш традиційними алгоритмами дерева рішень (наприклад, rpartв R)? Що робить дерева CI різними? Сильні і слабкі сторони? Оновлення: я розглянув статтю Horthorn та ін, про яку в коментарях посилається Чи. Я не зміг …

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Практичні запитання щодо налаштування випадкових лісів
Мої запитання стосуються випадкових лісів. Концепція цього прекрасного класифікатора мені зрозуміла, але все ж є багато питань практичного використання. На жаль, мені не вдалося знайти жодного практичного посібника з РФ (я шукав щось на кшталт "Практичного посібника для навчання машин з обмеженою діяльністю" Больцмана "Джеффрі Хінтона, але для випадкових лісів! …

3
Як насправді побудувати зразкове дерево з randomForest :: getTree ()? [зачинено]
Кожен отримав бібліотечні чи кодові пропозиції щодо того, як насправді побудувати пару зразкових дерев : getTree(rfobj, k, labelVar=TRUE) (Так, я знаю, що ви не повинні цього робити оперативно, РФ - це чорна скринька тощо) як добре працюють кодовані фактори тощо) Попередні запитання без гідної відповіді: Як зробити випадкові ліси більш …

3
Що таке Девіант? (конкретно в CART / rpart)
Що таке "Відхилення", як він обчислюється та якими є його використання в різних галузях статистики? Зокрема, мене особисто цікавить його використання в CART (та його реалізація в rpart in R). Я запитую це, оскільки вікі-статті здається дещо відсутнім, і Ваша думка буде найкраще вітатися.
45 r  cart  rpart  deviance 

4
Навчання дерева рішень проти незбалансованих даних
Я новачок у видобутку даних і намагаюся навчити дерево рішень щодо набору даних, який є вкрай незбалансованим. Однак у мене проблеми із поганою точністю прогнозування. Дані складаються з студентів, які вивчають курси, а змінна класу - це статус курсу, який має два значення - Відкликаний або Поточний. Вік Етнічність Стать …

6
Чому я отримую дерево рішень на 100% точності?
Я отримую 100% точність для свого дерева рішень. Що я роблю неправильно? Це мій код: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …

3
Чому Дерева рішень не є обчислювально дорогими?
У Вступі до статистичного навчання з додатками на R автори пишуть, що встановлення дерева рішень дуже швидко, але це не має для мене сенсу. Алгоритм повинен пройти кожну функцію і всіляко розділити її, щоб знайти оптимальний розкол. Для числових ознак із спостереженнями це може призвести до розділів для кожної функції.nннnннn …
38 cart 

4
Яка слабка сторона дерев рішень?
Дерева рішень здаються дуже зрозумілим методом машинного навчання. Після його створення людина може бути легко перевірена людиною, що є великою перевагою в деяких програмах. Які практичні слабкі сторони дерев рішень?

1
Відносна змінна важливість для підвищення рівня
Я шукаю пояснення того, як обчислюється відносна змінна важливість у градієнтних підсилених деревах, що не є надто загальним / спрощеним, як: Заходи ґрунтуються на кількості вибраних змінних для розщеплення, зважених вдосконаленням у формі квадрата в результаті кожного розколу та усередненому для всіх дерев . [ Еліт та ін. 2008 р., …

3
Яким чином випадкові ліси не чутливі до людей, що пережили?
Я читав у кількох джерелах, включаючи це , про те, що випадкові ліси не чутливі до людей, що переживають люди (наприклад, Логістична регресія та інші методи боротьби з МС). Однак дві інтуїції говорять мені про інше: Щоразу, коли будується дерево рішень, усі точки повинні бути класифіковані. Це означає, що навіть …

1
Які корисні вказівки щодо параметрів GBM?
Які корисні вказівки щодо тестування параметрів (наприклад, глибина взаємодії, мінчік, частота вибірки тощо) з використанням ГБМ? Скажімо, у мене 70-100 функцій, кількість населення 200 000, і я маю намір перевірити взаємодію на глибині 3 і 4. Ясно, що мені потрібно зробити кілька тестувань, щоб побачити, яка комбінація параметрів найкраще вибірка. …

4
Як виміряти / класифікувати "змінну важливість" при використанні CART? (зокрема, використовуючи {rpart} з R)
Створюючи модель CART (конкретно дерево класифікації) за допомогою rpart (в R), часто цікаво знати, яке значення мають різні змінні, що вводяться в модель. Отже, моє запитання таке: які спільні заходи існують для ранжирування / вимірювання значущості важливості змінних, що беруть участь у моделі CART? І як це можна обчислити за …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.