Як знайти оптимальні значення параметрів налаштування у збільшити дерева?


9

Я усвідомлюю, що в моделі прискорення дерев є 3 параметри настройки, тобто

  1. кількість дерев (кількість ітерацій)
  2. параметр усадки
  3. кількість розщеплень (розмір кожного складового дерева)

Моє запитання: як для кожного з параметрів настройки я повинен знайти його оптимальне значення? А який метод?

Зауважте: параметр усадки та кількість параметрів дерев працюють разом, тобто менше значення параметра усадки призводить до більш високого значення кількості дерев. І нам це потрібно враховувати.

Мене особливо цікавить метод пошуку оптимального значення для кількості розщеплень. Чи повинна вона базуватися на перехресній валідації або знаннях домену про модель, що стоїть?

І як ці речі виконуються в gbmпакеті на R?

Відповіді:


6

Пакет карети в R підходить для цього.

Її функція поїзда приймає сітку значень параметрів і оцінює продуктивність, використовуючи різні аромати перехресної перевірки або завантажувальну систему. Автор упаковки написав книгу « Прикладне моделювання прогнозування» , яка дуже рекомендується. У всій книзі використано 5 повторів 10-кратної перехресної перевірки.

Для вибору глибини дерева я спершу звернувся до знань з теми про проблему, тобто, якщо ви не очікуєте жодних взаємодій - обмежте глибину до 1 або перейдіть на гнучку параметричну модель (що набагато простіше зрозуміти та інтерпретувати). Попри це, я часто можу налаштувати глибину дерева, оскільки знання про предмет часто дуже обмежені.

Я думаю, що пакет gbm налаштовує кількість дерев за фіксованими значеннями глибини дерева та усадки.


Чи містить книжка також R-код?
користувач1769197

Я маю на увазі відпрацьований приклад, який включає код R, тому ми розуміємо, як моделі обчислюються в обчислювальній формі та застосовуються до набору даних
user1769197

1
Так. Для отримання додаткової інформації ознайомтеся з веб-сторінкою застосованого книгиpredpredictivemodeling.com .
ErikL

1

Є два хороших джерела для посилених регресійних дерев та пакету gbm. Пояснення БРТ та оптимізація кількості дерев ( nt), коефіцієнт навчання ( lr) та складність дерев ( tc) див. У робочому посібнику з посиленими регресійними деревами. Хоча він зосереджений на екології, я думаю, ви не знайдете кращого вступу до БРТ .

Про впровадження BRT у пакеті gbm див. Розширені регресійні дерева для екологічного моделювання

Коротше кажучи, головним правилом є вибір рівня навчання, яка дозволяє моделі BRT вмістити принаймні 1000 дерев, тому, можливо, для цього вам знадобиться низький рівень навчання, можливо 0,001. Але це залежить від розміру ваших даних, див. Рис. 2 та 3 у Посібнику з робочої групи BRT. Я думаю, що одним із можливих способів було б встановити в BRT різні моделі відповідно до ваших розмірів даних, наприклад, комбінувати різні lr (0,1, 0,01, 0,001), tc (1, 3, 5, 7, 9, 20) з різним пакетом .фракції (0,5, 0,7, 0,9) та виберіть найкращий відповідно до найменшого відхилення чи найвищої оцінки ROC. Можливо, це допомогло.


1
Для довідки BRT_MODEL$self.statistics$correlation[[1]]- це співвідношення даних тестування з навчальними даними, що є хорошою метрикою тесту.
dez93_2000

мені здається статистичним дизайном експерименту. : P
EngrStudent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.