чому метод прискорення чутливий до людей, що втрачають перевагу


12

Я знайшов багато статей, в яких говориться, що прискорені методи чутливі до виснажувачів, але жодна стаття не пояснює, чому.

На моєму досвіді, люди, що працюють із людьми, погані для будь-якого алгоритму машинного навчання, але чому прискорені методи виокремлюються як особливо чутливі?

Яким чином такі алгоритми можна класифікувати за чутливістю до людей, що переживають: буст-дерево, випадковий ліс, нейронна мережа, SVM та прості методи регресії, такі як логістична регресія?


1
Я відредагував спробу уточнити (також якщо ви ставите пробіли на початку рядка, stackexchange вважатиме це кодом). До вашого другого пункту, стимулювання - це що? Можливо, вам доведеться визначити чутливість.
Джеремі Майлз

1
Крім того, аутлієри і шуми - це не одне і те ж.
Джеремі Майлз

Я б ще не відзначив це питання вирішеним. Незрозуміло, чи насправді підсилення страждає від людей, що втратили чинність, більше, ніж інші методи. Здається, прийняту відповідь прийняли здебільшого через упередженість підтвердження.
rinspy

Чи можете ви поділитися якимись цими статтями, будь ласка?
acnalb

Відповіді:


11

Отримані люди можуть бути поганими для підвищення, оскільки прискорення будує кожне дерево на залишках / помилках попередніх дерев. У людей, що втрачають перевагу, будуть набагато більші залишки, ніж у тих, хто не виходить, тому збільшення градієнта буде зосереджувати непропорційну кількість його уваги на цих точках.


2
Буде краще, якщо ви зможете дати більше математичних деталей в ОП!
Менаріат

5
@Matemattica Я не погоджуюся, що додавання математичних деталей надасть тут додаткову ясність. Це було б просто символом для градієнтів дерев і ступенем навчання наступних дерев.
Райан Зотті

1
@RyanZotti: Я згоден з Менаріатом. Більш формальне позначення дозволило б усунути деяку плутанину. Наприклад, у реченні "У людей, що втрачають силу, буде значно більше залишків, ніж у непрацюючих", ви маєте на увазі залишки wrt до чого? Орієнтовна модель чи справжня? Якщо перші, це неправда взагалі, а якщо остання, це не має значення.
user603

1

Алгоритми, які ви вказали, призначені для класифікації, тому я припускаю, що ви не маєте на увазі перешкоди в цільовій змінній, а вхідні перемінники. Методи підсиленого дерева повинні бути досить надійними для людей, які переживають вхідні функції, оскільки базовими учнями є розщеплення дерев. Наприклад, якщо розкол становить x > 35, а 5 000 000 трактуються однаково. Це може бути, а може і не бути хорошою справою, але це вже інше питання.

Якщо б замість цього ви говорили про регресію та пережиття в цільовій змінній, то чутливість методів розширеного дерева залежатиме від використовуваної функції витрат. Звичайно, помилка у квадраті є чутливою до людей, що втрачають силу, оскільки різниця є квадратом, і це сильно вплине на наступне дерево, оскільки збільшує спроби пристосувати до (градієнта) втрати. Однак є більш надійні функції помилок, які можна використовувати для прискорених методів дерев, таких як втрати Хубера та абсолютна втрата.


0

Під час прискорення ми намагаємося вибрати набір даних, за якими результати алгоритму були поганими, замість випадкового вибору підмножини даних. Ці важкі приклади важливі для засвоєння, тому, якщо набір даних має безліч інструментів, і алгоритм не працює на них, ніж для вивчення цих важких прикладів, алгоритм спробує вибрати підмножини з цими прикладами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.