Інтуїтивно зрозумілі розбіжності між градієнтними підсилюючими деревами (ГБМ) та Адабоостом


48

Я намагаюся зрозуміти відмінності між GBM та Adaboost.

Це те, що я зрозумів поки що:

  • Існують обидва алгоритму підвищення, який вивчає помилки попередньої моделі і, нарешті, складає зважену суму моделей.
  • GBM і Adaboost дуже схожі за винятком функцій втрат.

Але все одно мені важко схопити уявлення про відмінності між ними. Чи може хтось дати мені інтуїтивні пояснення?

Відповіді:


34

Я виявив, що це введення може дати деякі інтуїтивні пояснення.

  • У програмі Gradient Boosting "недоліки" (наявних слабких учнів) визначаються градієнтами .
  • В Adaboost "недоліки" визначаються за великими точками даних .

На моє розуміння, експоненціальна втрата Adaboost дає більше ваги для тих зразків, які підходять гірше. Так чи інакше, Adaboost розглядається як особливий випадок підвищення градієнта з точки зору функціональних втрат, як це показано в історії збільшення градієнта, представленої у вступі.

  1. Винайдіть Adaboost, перший успішний прискорюючий алгоритм [Freund et al., 1996, Freund and Schapire, 1997]
  2. Сформулюйте Adaboost як градієнтне зниження зі спеціальною функцією втрат [Breiman et al., 1998, Breiman, 1999]
  3. Узагальнити Adaboost до Gradient Boosting для управління різноманітними функціями втрат [Friedman et al., 2000, Friedman, 2001]

11

Інтуїтивне пояснення алгоритму AdaBoost

Дозвольте мені побудувати на чудовій відповіді @ Рандела з ілюстрацією наступного моменту


  • В Adaboost "недоліки" визначаються за великими точками даних

Резюме AdaBoost

Гм(х) м=1,2,...,М

Г(х)=знак(α1Г1(х)+α2Г2(х)+...αМГМ(х))=знак(м=1МαмГм(х))
  • Остаточний прогноз - це поєднання прогнозів від усіх класифікаторів шляхом голосування зваженої більшості

  • αмГм(х)

  • ш1,ш2,...,шNм
  • м=1шi=1/N

AdaBoost на прикладі іграшки

М=10

введіть тут опис зображення

Візуалізація послідовності слабких учнів та вибіркової ваги

м=1,2 ...,6

введіть тут опис зображення

Перша ітерація:

  • Межа прийняття рішення дуже проста (лінійна), оскільки це учні, які навчаються
  • Всі бали однакового розміру, як і очікувалося
  • 6 синіх точок знаходяться в червоній області та є класифікованими

Друга ітерація:

  • Межа лінійного рішення змінилася
  • Раніше неправильно класифіковані сині точки тепер більше (більша маса зразка) та вплинули на межу прийняття рішення
  • 9 синіх точок зараз неправильно класифікуються

Кінцевий результат після 10 ітерацій

αм

([1.041, 0.875, 0.837, 0.781, 1,04, 0,938 ...

Як і очікувалося, перша ітерація має найбільший коефіцієнт, оскільки саме вона має найменші помилки.

Наступні кроки

Інтуїтивне пояснення збільшення градієнта - буде завершено

Джерела та подальше читання:

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.