Запитання з тегом «boosting»

Сімейство алгоритмів, що поєднують слабо прогностичні моделі в сильно прогностичну модель. Найбільш поширений підхід називається збільшенням градієнта, а найчастіше слабкими моделями є дерева класифікації / регресії.

1
Функція втрати біноміального відхилення Scikit
Це функція втрати біноміального відхилення від scikit GradientBoosting, def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() …

2
Чому Adaboost з деревами рішень?
Я читав трохи про алгоритми підсилення для класифікаційних завдань і зокрема Adaboost. Я розумію, що метою Adaboost є прийняття декількох "слабких учнів" і через набір ітерацій щодо даних про навчання підштовхують класифікаторів навчитися прогнозувати класи, на яких модель (и) неодноразово помиляються. Однак мені було цікаво, чому так багато прочитаних нами …

1
Як обчислити показники достовірності в регресії (з випадковими лісами / XGBoost) для кожного прогнозу в R?
Чи є спосіб отримати оцінку достовірності (ми можемо назвати це також достовірністю або ймовірністю) для кожного прогнозованого значення при використанні таких алгоритмів, як Random Forests або Extreme Gradient Boosting (XGBoost)? Скажімо, цей показник довіри варіюватиметься від 0 до 1 і показує, наскільки я впевнений у певному прогнозі . З того, …

1
Випадковий ліс проти Адабоост
У розділі 7 статті " Випадкові ліси" (Брейман, 1999) автор констатує таку гіпотезу: "Адабоост - випадковий ліс". Хтось довів чи спростував це? Що було зроблено для підтвердження чи спростування цієї посади 1999 року?

3
Як отримати інтервал довіри щодо зміни r-квадрата населення
Для простого прикладу припустимо, що існує дві моделі лінійної регресії Модель 1 має три провісники, x1a, x2b, іx2c Модель 2 має три предиктори з моделі 1 та два додаткові прогнози x2aтаx2b Існує рівняння регресії чисельності населення, де пояснюється дисперсія популяції для Моделі 1 та для Моделі 2. Інкрементальна дисперсія, пояснена …

1
Розмір дерева в збільшенні градієнтного дерева
Збільшення градієнтного дерева, запропонованого Фрідманом, використовує дерева рішень з Jкінцевими вузлами (= листя) в якості базових учнів. Існує декілька способів виростити дерево точно за допомогою Jвузлів, наприклад, можна виростити дерево на глибині спочатку або вшир в першу чергу, ... Чи існує усталений спосіб вирощування дерев за допомогою точно Jкінцевих вузлів …
10 r  cart  boosting 

1
Як працює лінійна база, яка навчається, у стимуляції? І як це працює в бібліотеці xgboost?
Я знаю, як реалізувати лінійну цільову функцію та лінійні прискорення в XGBoost. Моє конкретне питання: коли алгоритм підходить до залишкового (або від'ємного градієнта), це використання однієї функції на кожному кроці (тобто універсарна модель) або всіх функцій (багатоваріантна модель)? Будь-яке посилання на документацію про лінійні підсилення в XGBoost буде оцінено. EDIT: …

1
Повторне прискорення регресійних дерев (BRT), узагальнених моделей з підсиленням (GBM) та машини для підвищення градієнта (GBM)
Запитання: Яка різниця між деревами з посиленою регресією (BRT) та узагальненими прискореними моделями (GBM)? Чи можна їх взаємозамінно використовувати? Чи одна конкретна форма іншої? Чому Ріджвей використав фразу "Узагальнені прискорені регресійні моделі" (ГБМ), щоб описати те, що раніше Фрідман запропонував як "Градієнт-підсилювальна машина" (ГБМ)? Ці два абревіатури однакові, описують одне …

2
Оцінка помилки, що не входить у сумку, для підвищення?
У випадковому лісі кожне дерево вирощується паралельно на унікальній вибірці даних для завантаження. Оскільки, як очікується, кожен зразок завантаження може містити близько 63% унікальних спостережень, це залишає приблизно 37% спостережень, які можна використовувати для тестування дерева. Тепер, здається, що в Stohastic Gradient також існує аналогічна оцінці в РФ:О ОБe r …

2
Як знайти оптимальні значення параметрів налаштування у збільшити дерева?
Я усвідомлюю, що в моделі прискорення дерев є 3 параметри настройки, тобто кількість дерев (кількість ітерацій) параметр усадки кількість розщеплень (розмір кожного складового дерева) Моє запитання: як для кожного з параметрів настройки я повинен знайти його оптимальне значення? А який метод? Зауважте: параметр усадки та кількість параметрів дерев працюють разом, …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.