фон:
в xgboost в ітераційним підганяє дерево ф т по всьому п прикладів , які зводять до мінімуму наступної мети:
де спочатку порядок і похідні другого порядку над нашою попередньою кращої оцінки у (від ітерації т - 1 ):
а - наша функція втрат.
Питання (нарешті):
Будуючи і розглядаючи конкретну особливість k у конкретному розщепленні, вони використовують наступну евристику для оцінки лише деяких кандидатів на розкол: Вони сортують усі приклади за їх x k , передають відсортований список і підсумовують свою другу похідну h i . Вони розглядають розділеного кандидата лише тоді, коли сума змінюється більше ніж ϵ . Чому так???
Пояснення, яке вони дають, ухиляється від мене:
Вони стверджують, що ми можемо переписати попереднє рівняння так:
і я не дотримуюся алгебри - чи можете ви показати, чому вона дорівнює?
А потім вони стверджують, що "це точно зважена квадратна втрата з мітками та вагами h i " - заява, з якою я погоджуюся, але не розумію, як це стосується алгоритму розділеного кандидата, який вони використовують. ..
Дякую і вибачте, якщо це занадто довго для цього форуму.