Повторне прискорення регресійних дерев (BRT), узагальнених моделей з підсиленням (GBM) та машини для підвищення градієнта (GBM)


9

Запитання:

  1. Яка різниця між деревами з посиленою регресією (BRT) та узагальненими прискореними моделями (GBM)? Чи можна їх взаємозамінно використовувати? Чи одна конкретна форма іншої?
  2. Чому Ріджвей використав фразу "Узагальнені прискорені регресійні моделі" (ГБМ), щоб описати те, що раніше Фрідман запропонував як "Градієнт-підсилювальна машина" (ГБМ)? Ці два абревіатури однакові, описують одне і те ж, але є похідними від різних фраз.

Фон:

У мене виникають проблеми з визначенням того, чим відрізняються терміни BRT та GBM. З того, що я розумію, обидва - це терміни для опису класифікаційних та регресійних дерев, які мають стохастичність, включену за допомогою певного прискорення (наприклад, мішок, завантаження, перехресне підтвердження). Крім того, з того, що я знаходжу, термін GBM був вперше введений Фрідманом (2001) у своїй роботі "Жадне наближення функції: машина для підвищення градієнта". Тоді Ріджвей здійснив процедуру, описану Фрідманом у 2006 році, у своєму пакеті "Узагальнені прискорені регресійні моделі" (GBM). У моїй галузі (екологія) Elith et al. (2008) був першим, хто продемонстрував gbmпакет Ridgeway для моделювання розподілу видів. Однак автори в Elith et al. використовувати термін "прискорене регресійне дерево" (BRT) для опису Фрідмана та Риджвея "

Мене бентежить, чи можна ці терміни взаємозамінно використовувати? Дещо заплутано, що один автор використовував би той самий абревіатуру (від іншої фрази), щоб описати ту саму теорію, яку запропонував попередній автор. Також бентежить те, що третій автор використовував зовсім інший термін, описуючи цю теорію в екологічному плані.

Найкраще, що я можу придумати, - це те, що BRT є специфічною формою GBM, в якій розподіл є двочленним, але я не впевнений у цьому.

Elith та ін. Визначте прискорені регресійні дерева таким чином ... "Підсилені дерева регресії поєднують сили двох алгоритмів: регресійні дерева (моделі, що пов'язують реакцію на їх передбачувачів рекурсивними двійковими розщепленнями) та прискорення (адаптивний метод для комбінування багатьох простих моделей для покращення прогнозованої продуктивності Підсумкову модель BRT можна розуміти як модель адекватної регресії, в якій окремі терміни - це прості дерева, встановлені вперед, поетапно "(Elith et al., 2008).


1
Я не можу проникнути всередину авторів і сказати вам, але здається правдоподібним, що імена говорять про все. Підвищення - метод, який використовує послідовність слабких учнів. Важливим методом були б "маленькі дерева", такі як пні. Якщо ви збільшите модель регресійного дерева, ви отримаєте посилені дерева регресії. Апріорі можна розширити інші методи, включаючи категоричні методи, і повернути щось, що називається машиною підвищення градієнта, яка не була деревом, що підсилює регресію.
meh

Я не пригадую деталей з власної сторони, але в одній прочитаній книзі я вказував, як якщо використовувати пеньки для дерев, результат дуже нагадує гру.
meh

Відповіді:


15

Як згадував @aginensky у нитці коментарів, неможливо потрапити в голову автора, але BRT, швидше за все, просто більш чіткий опис gbmпроцесу моделювання, який є, пробачте, я зазначив очевидні, посилені класифікаційні та регресійні дерева. А оскільки ви запитували про підсилення, градієнти та регресії дерева, ось мої прості англійські пояснення термінів. FYI, CV - це не стимулюючий метод, а скоріше метод, який допомагає визначити оптимальні параметри моделі шляхом повторного відбору проб. Дивіться тут декілька чудових пояснень цього процесу.

Підсилення - це тип ансамблевого методу . Ансамблеві методи відносяться до сукупності методів, за допомогою яких остаточні прогнози робляться шляхом агрегування прогнозів з ряду окремих моделей. Підсилення, пакування та укладання - деякі широко застосовувані методи ансамблю. Укладання передбачає встановлення декількох різних моделей окремо (будь-якої структури на ваш власний вибір), а потім їх поєднання в єдину лінійну модель. Це робиться, якщо відповідати прогнозам окремих моделей залежно від змінної. LOOCV SSE зазвичай використовується для визначення коефіцієнтів регресії, і кожна модель розглядається як основна функція (на мій погляд, це дуже і дуже схоже на GAM). Аналогічним чином, пакетуванняпередбачає встановлення ряду аналогічно структурованих моделей для завантаження зразків. Ризикуючи, щоб ще раз викласти очевидне, укладання та пакування є паралельними методами ансамблю.

Однак прискорення є послідовним методом. І Фрідман, і Риджвей, описують алгоритмічний процес у своїх роботах, тому я не вставлю його тут лише цієї секунди, але звичайна англійська (і дещо спрощена) версія полягає в тому, що ви підходите одна за іншою моделлю, і кожна наступна модель прагне мінімізувати залишки, зважені за помилками попередньої моделі (параметр усадки - це вага, що виділяється на залишкову помилку кожного прогнозування від попередньої ітерації, і чим менше ви можете дозволити її мати, тим краще). В абстрактному розумінні ви можете вважати стимулювання як дуже людський процес навчання, коли ми застосовуємо минулий досвід для нових ітерацій завдань, які ми повинні виконати.

Тепер градієнтна частина всієї речі походить від методу, який використовується для визначення оптимальної кількості моделей (згаданих ітерацій в gbmдокументації), які будуть використані для прогнозування, щоб уникнути перенапруження. Функції втрати GBM (чорний) та помилки CV (зелений)

Як видно із візуальної картини (це було застосування для класифікації, але те саме стосується регресії) спочатку CV помилка падає досить круто, оскільки алгоритм вибирає ті моделі, які призведуть до найбільшого падіння помилки CV перед вирівнюванням і знову піднімається назад, коли ансамбль починає набиватися. Оптимальний номер ітерації - той, що відповідає точці перегину функції помилки CV (градієнт функції дорівнює 0), що зручно проілюстровано синьою пунктирною лінією.

gbmРеалізація Риджвея використовує класифікаційні та регресійні дерева, і хоча я не можу претендувати на те, щоб прочитати його думку, я б міг уявити, що швидкість і легкість (не кажучи вже про їхню стійкість до даних шенагіганів), з якими дерева можуть підходити, мали досить значний вплив на його вибір техніки моделювання. Незважаючи на те, що я можу помилятися, я не можу уявити суто теоретичну причину, по якій практично будь-яка інша техніка моделювання не могла бути реалізована. Знову ж таки, я не можу стверджувати, що знаю розум Риджвей, але я уявляю узагальнену частинуgbmім'я відноситься до безлічі потенційних додатків. Пакет може використовуватися для виконання регресії (лінійної, пуассонової і квантильної), двочленної (з використанням ряду різних функцій втрат) та багаточленної класифікації та аналізу виживання (або принаймні обчислення функції небезпеки, якщо розподіл coxph є будь-якими ознаками).

Папір Еліти здається нечітко знайомою (я думаю, я зіткнувся з нею минулого літа, вивчаючи зручні для gbm методи візуалізації), і якщо пам'ять слугує правильно, вона містила розширення gbmбібліотеки, орієнтуючись на автоматизовану настройку моделі регресії (як при гауссовому розподілі , а не двочленних додатків та покращеного генерування сюжету. Я думаю, що номенклатура RBT існує для того, щоб допомогти з’ясувати характер методики моделювання, тоді як GBM є більш загальним.

Сподіваюсь, це допоможе зрозуміти кілька речей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.