Потрібна допомога з розумінням пропозиції приблизних розділених балів xgboost


12

фон:

в xgboost в ітераційним підганяє дерево ф т по всьому п прикладів , які зводять до мінімуму наступної мети:tftn

i=1n[gift(xi)+12hift2(xi)]

де спочатку порядок і похідні другого порядку над нашою попередньою кращої оцінки у (від ітерації т - 1 ):gi,hiy^t1

  • gi=dy^l(yi,y^)
  • hi=dy^2l(yi,y^)

а - наша функція втрат.l


Питання (нарешті):

Будуючи і розглядаючи конкретну особливість k у конкретному розщепленні, вони використовують наступну евристику для оцінки лише деяких кандидатів на розкол: Вони сортують усі приклади за їх x k , передають відсортований список і підсумовують свою другу похідну h i . Вони розглядають розділеного кандидата лише тоді, коли сума змінюється більше ніж ϵ . Чому так???ftkxkhiϵ

Пояснення, яке вони дають, ухиляється від мене:

Вони стверджують, що ми можемо переписати попереднє рівняння так:

i=1n12hi[ft(xi)gi/hi]2+constant

і я не дотримуюся алгебри - чи можете ви показати, чому вона дорівнює?

А потім вони стверджують, що "це точно зважена квадратна втрата з мітками та вагами h i " - заява, з якою я погоджуюся, але не розумію, як це стосується алгоритму розділеного кандидата, який вони використовують. ..gi/hihi

Дякую і вибачте, якщо це занадто довго для цього форуму.

Відповіді:


8

Я не буду вникати в деталі, але наступне має допомогти вам зрозуміти цю ідею.

{x1,,x100}10{x10,x20,,x90}ϵϵNϵ=0.01100{1%,2%,...,99%}ϵϵ

1010%10%


Я ввійшов у систему лише для того, щоб дати вам голос. Дякуємо за зрозумілі пояснення.
Pakpoom Tiwakornkit

3

Просто додавши алгебраїчну частину до відповіді @Winks:

Друге рівняння повинно мати зворотний знак, як у:

i=1n12hi[ft(xi)(gi/hi)]2+constant=i=1n12hi[ft2(xi)+2ft(xi)gihi+(gi/hi)2]=i=1n[gift(xi)+12hift2(xi)+gi22hi]

gihift

gi/hihi

Заслуга Ярона та Аві від моєї команди за те, що вони мені це пояснили.


0

А потім вони стверджують, що "це точно зважена квадратна втрата з мітками gi / higi / hi та вагами hihi" - заява, з якою я погоджуюся, але не розумію, як це стосується алгоритму розділеного кандидата, який вони використовують. .

  1. wtthw=gi/hi(ft(gi/hi))2

  2. wavg(gi)/constsigma(gi)/sigma(hi)whigiwhi

hi

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.