Як вибрати кількість дерев в узагальненій моделі посиленої регресії?


11

Чи існує стратегія вибору кількості дерев в ГБМ? Зокрема, ntreesаргумент у R's gbmфункції.

Я не бачу, чому ви не повинні встановлювати ntreesмаксимальне розумне значення. Я помітив, що більша кількість дерев явно знижує мінливість результатів від кількох ГБМ. Я не думаю, що велика кількість дерев призведе до надмірного вбрання.

Будь-які думки?

Відповіді:


3

Це GBM:

" Я не думаю, що ... " була небезпечною першою частиною багатьох речень.

Достатньо хороший безглуздий без міри добра, рубрики.

Які заходи доброти для будь-якого іншого методу?

  • Різниця між моделлю та даними (sse, ...)
  • Розбіжність помилок у наборі утримування (помилка тренувань проти помилки тесту)
  • Коефіцієнт підрахунку параметрів до кількості вибірки (більшість людей, як 5 проб на параметр або 30 зразків на параметр)
  • Перехресне підтвердження (ансамблеві методи на розбіжність тестів на помилки)

Як і нейронна мережа, або сплайн, ви можете виконати кульову лінійну інтерполяцію даних та отримати модель, яка не може узагальнити. Вам потрібно відмовитися від деяких «низьких помилок» в обмін на загальну застосовність - узагальнення.

Більше посилань:


2

Я знайшов деяке розуміння проблеми: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.stepФункція може бути використана для визначення оптимальної кількості дерев. Я досі не впевнений, що викликає збільшення відхилення моделі після певної кількості дерев, тому я все ще готовий прийняти відповідь, яка відповідає на цю частину питання!


2
Перевищення зумовлює збільшення. Більшість хороших методів складають набір затримань і використовують його для тестування моделі, але не для оновлення моделі. Це дозволяє виявити початок набору.
EngrStudent

0

Це робоча інструкція щодо посилених регресійних дерев від Elith et al .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Дуже корисно!

Ви повинні принаймні використовувати 1000 дерев. Наскільки я зрозумів, ви повинні використовувати поєднання швидкості навчання, складності дерев та кількості дерев, що досягає мінімальної помилки передбачення. Менші значення коефіцієнта навчання призводять до збільшення ризику навчання за однакової кількості повторень, тоді як кожна ітерація знижує ризик навчання. Якщо кількість дерев досить велика, ризик можна зробити довільно невеликим (див.: Hastie et al., 2001, «Елементи статистичного навчання, обмін даними, умовиводи та прогнозування» ).


Це правда, що Еліт та ін. Запропонуйте, як правило, використовувати 1000 дерев. Однак це ґрунтується на детальному аналізі стабільності прогнозування для конкретного набору даних, використовуваного в роботі. Мабуть, мабуть, те саме число працювало б для будь-якого можливого набору даних. Можливо, ви могли б трохи розширити свою відповідь, давши детальну інформацію про проведений аналіз, зокрема в додатку S1.
DeltaIV

0

Як часто зустрічається в деяких алгоритмах машинного навчання, Boosting підлягає компромісії з ухилом відхилення щодо кількості дерев. Якщо говорити про це, то це говорить про те, що: (i) слабкі моделі, як правило, мають велику упередженість та низьку дисперсію: вони занадто жорсткі, щоб захопити мінливість у навчальному наборі даних, тому також не будуть добре працювати в тестовому наборі (високий тест помилка) (ii) дуже сильні моделі, як правило, мають низький ухил і велику дисперсію: вони занадто гнучкі і вони переповнюють навчальний набір, тому в тестовому наборі (оскільки точки даних відрізняються від навчального набору) вони також не будуть добре працювати (висока помилка тесту)

Концепція розширення дерев - починати з неглибоких дерев (слабких моделей) і продовжувати додавати більше дрібних дерев, які намагаються виправити попередні слабкості дерев. Під час цього процесу помилка тесту має тенденцію до зменшення (оскільки загальна модель стає більш гнучким / потужним). Однак якщо ви додасте занадто багато цих дерев, ви почнете переробляти дані тренувань, і тому помилка тесту збільшується. Перехресне підтвердження допомагає знайти солодке місце

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.