Які наслідки для навчання ансамблю дерев із сильно упередженими наборами даних?


14

У мене є дуже упереджений бінарний набір даних - у мене на 1000 разів більше прикладів негативного класу, ніж позитивного класу. Я хотів би тренувати ансамбль дерев (наприклад, додаткові випадкові дерева або випадковий ліс) за цими даними, але важко створити набори навчальних наборів, які містять достатньо прикладів позитивного класу.

Якими будуть наслідки застосування стратифікованого підбору вибірки для нормалізації кількості позитивних та негативних прикладів? Іншими словами, чи погана ідея, наприклад, штучно завищувати (шляхом перекомпонування) кількість позитивних прикладів класу у навчальному наборі?

Відповіді:


10

Так, це проблематично. Якщо ви перепробовуєте меншину, ви ризикуєте надмірно подолати. Якщо ви підкреслили більшість, ви ризикуєте пропустити аспекти класу більшості. Стратифікована вибірка, btw, є еквівалентом призначення нерівномірних витрат на помилкову класифікацію.

Альтернативи:

(1) Незалежний вибірки декількох підмножин з класу мажоритарників та складання декількох класифікаторів, поєднуючи кожне підмножину з усіма даними класу меншин, як це запропоновано у відповіді від @Debasis та описано в цій роботі EasyEnsemble ,

(2) SMOTE (Техніка синтезу синтетичних меншин) або SMOTEBoost (поєднуючи SMOTE з прискоренням), щоб створити синтетичні екземпляри класу меншостей, зробивши найближчих сусідів у просторі функцій. SMOTE реалізований в R в пакеті DMwR .


11

Я рекомендую тренуватись на більш збалансованих підмножинах ваших даних. Навчання випадкового лісу на наборах випадково вибраного позитивного прикладу з аналогічною кількістю негативних зразків. Зокрема, якщо дискримінаційні особливості виявляють багато відмінностей, це буде досить ефективно та уникне перенапруги. Однак у стратифікації важливо знайти баланс, оскільки надмірне пристосування може стати проблемою незалежно. Я б запропонував побачити, як працює модель з усім набором даних, а потім поступово збільшуючи відношення позитивних до негативних зразків, наближаючись до рівного співвідношення, та вибираючи для тієї, яка максимізує показник вашої ефективності на деяких репрезентативних даних, що витримують.

Цей документ видається досить актуальним http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf, в ньому йдеться про те, weighted Random Forestщо ще більше санкціонує неправильну класифікацію класу меншин.


4

Швидкий, простий, найчастіше ефективним способом наблизитись до цього дисбалансу буде випадкове підгрупування більшого класу (який у вашому випадку є негативним класом), проведення класифікації N кількість разів із членами двох класів (один повний та другий підпробовані) та повідомляють про середні значення метрики, середнє обчислюється за N (скажімо, 1000) ітерацій.

Більш методичним підходом було б виконання алгоритму Mapping Convergence (MC), який передбачає ідентифікацію підмножини сильних негативних зразків за допомогою однокласного класифікатора, таких як OSVM або SVDD, а потім ітеративно виконувати бінарну класифікацію на множині сильних негативних та позитивних зразків. Більш докладно про алгоритм MC можна знайти в цій роботі .


0

Як було сказано вище, найкращим способом є багаторазове вибірка класу більшості N разів (вибірка без заміни), і для кожного разу розмір негативного класу повинен бути рівним розміру позитивного класу. Тепер можна навчати N різних класифікаторів, а середню оцінку можна використовувати для її оцінки.

Ще один спосіб - використовувати техніку завантаження. Це може запровадити надмірну обробку, але варто спробувати, і тоді, якщо це буде потрібно, можна регулювати модель, щоб уникнути перевиконання.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.