Чи можна зробити моделі CART надійними?


14

Колега в моєму кабінеті сьогодні сказав мені: "Деревові моделі не гарні, тому що вони потрапляють під екстремальні спостереження".

Пошук тут призвів до цієї теми, яка в основному підтримує заяву.

Що призводить мене до питання - за якої ситуації модель CART може бути надійною, і як це показано?

Відповіді:


15

Ні, не в їх нинішніх формах. Проблема полягає в тому, що функції опуклих втрат не можна зробити надійними для забруднення сторонніми людьми (це добре відомий факт з 70-х років, але він постійно періодично розкривається; див., Наприклад, цей документ для недавнього такого повторного виявлення):

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

Тепер, у випадку регресійних дерев, може використовуватися той факт, що CART використовує маргінали (або альтернативно одновимірні прогнози): можна придумати версію CART, де критерій sd замінюється більш надійним аналогом (MAD або ще краще, Оцінювач Qn).

Редагувати:

Нещодавно я натрапив на старішу статтю, що реалізує запропонований вище підхід (використовуючи надійний M-оцінювач масштабу замість MAD). Це надасть стійкості "y" іншим особам CART / RF (але не людям, що знаходяться на проектному просторі, що впливатиме на оцінки гіперпараметри моделі) Див.

Galimberti, G., Pillati, M., & Soffritti, G. (2007). Міцні дерева регресії на основі M-оцінок. Statistica, LXVII, 173–190.


Дякую квак. Ця стаття, здається, говорить про прискорені методи. Чи відповідають результати, які вони представляють, для простого випадку класифікатора моделі CART? (на поверхні це звучить так, але я не переглянув статтю достатньо, щоб справді знати)
Тал Галілі

Результат, який вони представляють, стосується будь-якої функції опуклої втрати, і спочатку її обговорював Tukey. Підсумовуючи підсумки, міра поширення (Джині або ентропія), яка використовується для кількісної оцінки якості вузла, чутлива до забруднення сторонніми людьми (тобто спостереження, які пропущені в наборі даних). Ця проблема стосується як будівництва, так і етапу обрізки. Забруднення набору даних за допомогою спостереження за неправильно вписаною міткою зазвичай призводить до того, що отримане дерево буде занадто складним (ви можете перевірити це досить легко самостійно).
user603

Дякую, Кваку! І чи не існує надійної функції втрат?
Тал Галілі

1
відсутність функції опуклої втрати. Дивіться цю статтю "Швидкий алгоритм для оцінки детермінанти мінімальної коваріації" для прикладу того, що можна зробити з невипуклими функціями втрат (хоча це не стосується класифікації, статтю варто прочитати).
user603

2
@Tal CART є еквівалентом прискорення "поворотного класифікатора" (критерій, який сидить у кожному вузлі дерева, як деяка терка атрибутів, ніж щось або якесь значення атрибута в наборі чогось).

6

Ви можете розглянути можливість використання мішків Бреймана або випадкових лісів . Однією з хороших посилань є Брейман "Проривні прогнози" (1996). Також узагальнено у «Класифікація та регресія дерев, забивання та нарощування» Кліфтона Саттона у Довіднику статистики.

Ви також можете побачити Енді Ляу та Метью Вінер R Новини обговорення пакету randomForest.


2
Не зіпсувати партію, але як випадкові ліси повинні забезпечити стійкість до забруднення сторонніми людьми - загадка.
user603

3
@kwak Все-таки це хороша відповідь; дерева в РФ не бачать усього набору, тому багато з них не будуть забруднені. Ще краще - відстеження, в яких листках розташовані справи OOB, можна використовувати для пошуку мічених об'єктів та їх усунення. (Як я зараз пригадую, про це йдеться у статті Бреймана про РФ).

4
Проблема полягає в тому, що люди, що пережили люди, зроблять «погані» (тобто забруднені) дерева виглядати краще, ніж хороші (незабруднені) дерева. Це називається, маскуючим ефектом, і його легко копіювати з імітованими даними. Проблема виникає через те, що критерій, який ви використовуєте для оцінювання дерев, сам по собі не є надійним для людей, що переживають люди. Я знаю, що я починаю звучати як фундаменталістська мулла, але якщо кожен інструмент, який ви використовуєте, не є надійним, ваша процедура може виявлятись чутливою (на тому чи іншому рівні) до людей, які не працюють (і, отже, не надійними).
user603

3

Якщо ви перевіряєте пакет 'gbm' в R (узагальнене збільшення градієнта), 'boosting' використовує функції втрат, які не обов'язково означають помилку в квадраті. Це відображається в аргументі "розподіл" для функції "gbm ()". Таким чином, опрацювання дерева за допомогою прискорення буде стійким до сторонніх людей, подібно до того, як працюють М-оцінки.

Ви можете почати тут .

Іншим підходом було б побудувати дерево звичайним способом (розділи на основі SSE), але обрізати дерево, використовуючи перехресну перевірку із надійною мірою придатності. Я думаю, що xpred in rpart дасть перехресні перевірені прогнози (для різних складностей дерев), до яких ви зможете застосувати власну міру помилок, наприклад середнє абсолютне значення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.