Запитання з тегом «xgboost»

З питань, пов'язаних з алгоритмом підвищення рівня градієнта eXtreme.

5
ГБМ проти XGBOOST? Ключові відмінності?
Я намагаюся зрозуміти ключові відмінності між GBM та XGBOOST. Я спробував google це, але не міг знайти жодних хороших відповідей, що пояснювали б відмінності між двома алгоритмами та чому xgboost майже завжди працює краще, ніж GBM. Що робить XGBOOST настільки швидким?

2
Як інтерпретувати висновок важливості XGBoost?
Я керував моделлю xgboost. Я точно не знаю, як інтерпретувати результат xgb.importance. Яке значення посилення, покриття та частоти і як їх інтерпретувати? Крім того, що означає Split, RealCover та RealCover%? У мене є деякі додаткові параметри тут Чи є якісь інші параметри, які можуть розповісти мені більше про імпорт функцій? …

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Гіпертунінг параметрів XGBoost
XGBoost робив чудову роботу, коли справа стосується як категоричних, так і постійних залежних змінних. Але як вибрати оптимізовані параметри для проблеми XGBoost? Ось як я застосував параметри для недавньої проблеми Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed …
27 r  python  xgboost 

2
LightGBM проти XGBoost
Я намагаюся зрозуміти, що краще (точніше, особливо в питаннях класифікації) Я шукав статті, порівнюючи LightGBM та XGBoost, але знайшов лише два: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - що стосується лише швидкості, але не точності. https://github.com/Microsoft/LightGBM/wiki/Experiment - що є авторами LightGBM і не дивно, що LightGBM виграє там. У своїх тестах я отримую майже однаковий …
25 xgboost 

3
Навіщо нам потрібні XGBoost та Random Forest?
Мені не було зрозуміло в кількох поняттях: XGBoost перетворює слабких учнів у сильних. Яка перевага в цьому? Об’єднання багатьох слабких учнів замість того, щоб просто використовувати одне дерево? Випадковий ліс використовує різні зразки з дерева для створення дерева. У чому перевага цього методу замість того, щоб просто використовувати єдине дерево?

4
Чи XGBoost самостійно обробляє мультиколінеарність?
В даний час я використовую XGBoost для набору даних з 21 функцією (вибрано зі списку з приблизно 150 функцій), потім однокольоровим кодуванням їх, щоб отримати ~ 98 функцій. Деякі з цих 98 особливостей є дещо зайвими, наприклад: змінна (функція) також з'являється як і .ААAБАБА\frac{B}{A}САСА\frac{C}{A} Мої запитання: Як ( якщо? ) …


4
Незбалансовані багатокласові дані з XGBoost
У мене є 3 класи з цим розподілом: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 І я використовую xgboostдля класифікації. Я знаю, що є параметр, який називається scale_pos_weight. Але як це обробляється для "багатокласового" випадку і як я можу його правильно встановити?

1
Дерева рішень: листяний (найкращий перший) та рівний обхід дерева
Випуск 1: Мене бентежить опис LightGBM щодо способу розширення дерева. Вони заявляють: Більшість алгоритмів навчання дерев рішень вирощують дерево за рівнем (глибиною) також, як і наступне зображення: Запитання 1 : Які "більшість" алгоритмів реалізовані таким чином? Наскільки я знаю, C4.5 і CART використовують DFS. XGBoost використовує BFS. Які ще алгоритми …

2
Як підходять парні моделі ранжирування в xgBoost?
Наскільки я знаю, щоб навчити навчання класифікувати моделі, у наборі даних потрібно мати три речі: етикетка або відповідність група або ідентифікатор запиту вектор функції Наприклад, набір даних Microsoft Learning to Rank використовує цей формат (мітка, ідентифікатор групи та функції). 1 qid:10 1:0.031310 2:0.666667 ... 0 qid:10 1:0.078682 2:0.166667 ... Я …
14 search  ranking  xgboost  gbm 

3
Рамка даних Pandas до DMatrix
Я намагаюся запустити xgboost в scikit learn. І я використовую лише Pandas для завантаження даних у рамки даних. Як я повинен використовувати pandas df з xgboost. Мене бентежить рутина DMatrix, необхідна для запуску xgboost algo.

1
XGBRegressor проти xgboost.train величезна різниця швидкостей?
Якщо я треную свою модель, використовуючи наступний код: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) він закінчується приблизно за 1 хвилину. Якщо я треную свою модель, використовуючи метод …

1
Особливість важливості з високою кардинальністю для регресії (числова змінна залежність)
Я намагався використовувати імпорт функцій з Random Forests, щоб здійснити деякий емпіричний вибір функції для проблеми регресії, де всі функції є категоричними і багато з них мають багато рівнів (порядку 100-1000). Зважаючи на те, що одне гаряче кодування створює фіктивну змінну для кожного рівня, імпорт функцій - для кожного рівня, …

3
Потрібна допомога з розумінням пропозиції приблизних розділених балів xgboost
фон: в xgboost в ітераційним підганяє дерево ф т по всьому п прикладів , які зводять до мінімуму наступної мети:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] де спочатку порядок і похідні другого порядку над нашою попередньою кращої оцінки у (від ітерації т - 1 ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) а - наша …
12 xgboost  gbm 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.