Статистика та великі дані xgboost

4

Як налаштувати гіперпараметри дерев xgboost?

У мене є дані про незбалансований клас, і я хочу налаштувати гіперпараметри підсиленого тресу за допомогою xgboost. Запитання Чи є еквівалент gridsearchcv або randomsearchcv для xgboost? Якщо ні, то який рекомендований підхід до налаштування параметрів xgboost?

68 machine-learning cross-validation xgboost boosting

1

Математичні відмінності між GBM, XGBoost, LightGBM, CatBoost?

Існує кілька реалізацій моделі GBDT, таких як: ГБМ XGBoost LightGBM Catboost. Які математичні відмінності між цими різними реалізаціями? Catboost, здається, перевершує інші реалізації навіть використовуючи лише його параметри за замовчуванням відповідно до цієї тестової позначки , але це все ще дуже повільно. Я думаю, що catboost не використовує думіфіковані змінні, …

33 boosting xgboost

1

Наближення функції втрати XGBoost з розширенням Тейлора

Як приклад, візьміть об'єктивну функцію моделі XGBoost на ttt -й ітерації: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) де ℓℓ\ell функція втрат, ftftf_t є ttt «го вихідного дерева і ΩΩ\Omega є регуляризація. Одним із (багатьох) ключових кроків для швидкого обчислення є наближення: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), де gigig_i і hihih_i є першою та другою похідними функції втрат. Мене …

28 optimization loss-functions boosting xgboost taylor-series

4

Яке правильне використання scale_pos_weight в xgboost для незбалансованих наборів даних?

У мене дуже незбалансований набір даних. Я намагаюся дотримуватися порад щодо налаштування та користуватися, scale_pos_weightале не знаю, як слід його настроїти. Я бачу, що RegLossObj.GetGradientце: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight тому градієнт позитивної вибірки був би більш впливовим. Однак, згідно з документом xgboost , статистика градієнта завжди використовується …

26 unbalanced-classes xgboost

1

Пояснення min_child_weight в алгоритмі xgboost

Визначення з min_child_weight параметра в xgboost задається як: мінімальна сума ваги екземпляра (гессіана), необхідна дитині. Якщо на етапі розділу дерева з’явиться вузол аркуша із сумою ваги екземпляра менше min_child_weight, тоді процес побудови відмовиться від подальшого розподілу. У режимі лінійної регресії це просто відповідає мінімальній кількості екземплярів, необхідних для кожного вузла. …

23 machine-learning xgboost hessian

3

XGBoost проти Python Sklearn сприяв збільшенню дерев

Я намагаюся зрозуміти, як працює XGBoost. Я вже розумію, як підсилені градієнти дерева працюють на склеарні Python. Що мені незрозуміло, це якщо XGBoost працює однаково, але швидше або якщо існують принципові відмінності між ним та реалізацією python. Коли я прочитав цей документ http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Мені здається, що кінцевий результат, що виходить …

20 scikit-learn boosting gbm xgboost

3

Які алгоритми потребують масштабування функцій, крім SVM?

Я працюю з багатьма алгоритмами: RandomForest, DecisionTrees, NaiveBayes, SVM (ядро = лінійне та rbf), KNN, LDA та XGBoost. Усі вони були досить швидкими, за винятком SVM. Саме тоді я дізнався, що для швидшого роботи потрібне масштабування функцій. Тоді я задумався, чи варто робити те ж саме для інших алгоритмів.

17 machine-learning svm random-forest naive-bayes xgboost

1

Підвищення та захоплення дерев (XGBoost, LightGBM)

Є багато повідомлень в блогах, відео на YouTube і т.д. про ідеях розфасовки або підвищення дерев. Моє загальне розуміння полягає в тому, що псевдокод для кожного такий: Мішок: Візьміть N випадкових вибірок x% зразків і y% ознак Встановіть свою модель (наприклад, дерево рішень) на кожен з N Прогнозуйте з кожним …

17 cart boosting xgboost bagging

4

Чи варто турбуватися про мультиколінеарність при використанні нелінійних моделей?

Скажімо, у нас є проблема бінарної класифікації з переважно категоричними ознаками. Ми використовуємо деяку нелінійну модель (наприклад, XGBoost або Random Forests), щоб дізнатися її. Чи варто все-таки турбуватися про багатоколірність? Чому? Якщо відповідь на вищезазначене відповідає дійсності, як з цим боротися, враховуючи, що використовуються ці типи нелінійних моделей?

13 classification random-forest multicollinearity xgboost

1

XGBoost може обробляти відсутні дані на етапі прогнозування

Нещодавно я переглянув алгоритм XGBoost і помітив, що цей алгоритм може обробляти відсутні дані (не вимагаючи імпутації) на етапі навчання. Мені було цікаво, чи може XGboost обробляти відсутні дані (не вимагаючи імпутації), коли він використовується для прогнозування нових спостережень або необхідно імпутувати відсутні дані. Заздалегідь спасибі.

12 machine-learning missing-data data-imputation xgboost

1

Як працює лінійна база, яка навчається, у стимуляції? І як це працює в бібліотеці xgboost?

Я знаю, як реалізувати лінійну цільову функцію та лінійні прискорення в XGBoost. Моє конкретне питання: коли алгоритм підходить до залишкового (або від'ємного градієнта), це використання однієї функції на кожному кроці (тобто універсарна модель) або всіх функцій (багатоваріантна модель)? Будь-яке посилання на документацію про лінійні підсилення в XGBoost буде оцінено. EDIT: …

9 regression machine-learning boosting xgboost

Запитання з тегом «xgboost»