Запитання з тегом «boosting»

Сімейство алгоритмів, що поєднують слабо прогностичні моделі в сильно прогностичну модель. Найбільш поширений підхід називається збільшенням градієнта, а найчастіше слабкими моделями є дерева класифікації / регресії.

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Які алгоритми пакетування гідні наступників Random Forest?
Щодо прискорення алгоритмів, я б сказав, що вони розвивалися досить добре. На початку 1995 року була представлена ​​AdaBoost, потім через деякий час це була градієнтна машина для підсилення (GBM). Нещодавно, близько 2015 року, було представлено XGBoost, який є точним, справляється з оснащенням і став переможцем кількох змагань Kaggle. У 2017 …

1
Коли хочеться використовувати AdaBoost?
Коли я чув про класифікатор AdaBoost, який неодноразово згадувався на роботі, я хотів краще зрозуміти, як він працює і коли можна захотіти ним користуватися. Я пішов вперед і прочитав низку робіт та навчальних посібників, які я знайшов в Google, але є такі аспекти класифікатора, які я все ще не можу …


3
R: Що я бачу в часткових залежностях графіків gbm та RandomForest?
Власне, я думав, що зрозумів, що можна показати за допомогою часткової залежності, але, використовуючи дуже простий гіпотетичний приклад, я здивувався. У наступному фрагменті коду я генерую три незалежні змінні ( a , b , c ) та одну залежну змінну ( y ) з c, що показує тісний лінійний зв’язок …

1
Чи підходить збільшення градієнта для даних із низькими показниками подій, як 1%?
Я намагаюся збільшити градієнт на наборі даних зі швидкістю події близько 1% за допомогою майнера Enterprise, але це не вдається отримати жодного результату. Моє питання, оскільки це підхід на основі дерева рішень, чи правильно використовувати градієнтний прискорення при такій низькій події?

3
Чи є випадкові лісові та підсилювальні параметричні чи непараметричні?
Читаючи чудове статистичне моделювання: Дві культури (Брейман 2001) , ми зможемо використати всю різницю між традиційними статистичними моделями (наприклад, лінійною регресією) та алгоритмами машинного навчання (наприклад, Baging, Random Forest, Boosted дерева ...). Брейман критикує моделі даних (параметричні), оскільки вони ґрунтуються на припущенні, що спостереження породжуються відомою формальною моделлю, призначеною статистиком, …

1
Чому б не завжди використовувати ансамблеве навчання?
Мені здається, що ансамблеве навчання завжди дасть кращі показники прогнозування, ніж лише одна гіпотеза навчання. То чому б ми не використовували їх постійно? Моя здогадка, можливо, через обчислювальні обмеження? (навіть тоді ми використовуємо слабкі предиктори, тому я не знаю).

9
Підсилили дерева рішень у пітоні? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 6 місяців тому . Чи є хороша бібліотека пітонів для навчання підсилених дерев рішень?
13 python  cart  boosting 

2
Найкращі практики кодування категоричних ознак для дерев рішень?
При кодуванні категоричних ознак для лінійної регресії існує правило: кількість манекенів має бути на одну меншу, ніж загальна кількість рівнів (щоб уникнути колінеарності). Чи існує подібне правило для дерев рішень (мішковане, підсилене)? Я запитую це тому, що стандартною практикою в Python, здається, є розширення nрівнів на nманекени (sklearns ' OneHotEncoderабо …

5
Чи мрія автоматизованого машинного навчання?
Коли я відкриваю машинне навчання, я бачу різні цікаві методи, такі як: автоматично налаштовувати алгоритми з такими методами, як grid search, отримати більш точні результати за допомогою комбінації різних алгоритмів одного "типу" boosting, отримати більш точні результати за рахунок поєднання різних алгоритмів (але не той же самий тип алгоритмів), це …

3
чому метод прискорення чутливий до людей, що втрачають перевагу
Я знайшов багато статей, в яких говориться, що прискорені методи чутливі до виснажувачів, але жодна стаття не пояснює, чому. На моєму досвіді, люди, що працюють із людьми, погані для будь-якого алгоритму машинного навчання, але чому прискорені методи виокремлюються як особливо чутливі? Яким чином такі алгоритми можна класифікувати за чутливістю до …

1
Градієнт для функції логістичних втрат
Я б задавав питання, пов’язане з цим . Я знайшов приклад написання спеціальної функції втрати для xgboost тут : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute …

1
Як використовувати пень рішення як слабкого учня в Adaboost?
Я хочу реалізувати Adaboost за допомогою рішення Stump. Чи правильно робити стільки рішень, скільки можливостей нашого набору даних у кожній ітерації Adaboost? Наприклад, якщо у мене є набір даних з 24 функціями, чи повинен я мати 24 класифікатори пеньки для кожної ітерації? Або я повинен випадковим чином вибрати деякі функції …

2
Використання Adaboost з SVM для класифікації
Я знаю, що Adaboost намагається генерувати сильний класифікатор, використовуючи лінійну комбінацію набору слабких класифікаторів. Однак я прочитав деякі документи, які пропонують Adaboost і SVM працювати в гармонії (навіть якщо SVM є сильним класифікатором) у певних умовах та випадках . Я не в змозі зрозуміти з архітектурної та програмної точки зору, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.