Це цікава та дуже часта проблема класифікації - не лише у деревах рішень, а практично у всіх алгоритмах класифікації.
Як ви виявили емпірично, навчальний набір, що складається з різної кількості представників будь-якого класу, може призвести до класифікатора, який є упередженим до класу більшості. Застосовуючи тестовий набір, який аналогічно є незбалансованим, цей класифікатор дає оптимістичну оцінку точності. В крайньому випадку, класифікатор може призначити кожен тестовий випадок мажоритарному класу, тим самим досягнувши точності, рівній частці тестових випадків, що належать до мажоритарного класу. Це добре відоме явище в двійковій класифікації (і воно, природно, поширюється на багатокласові настройки).
Це важлива проблема, оскільки незбалансований набір даних може призвести до завищених оцінок ефективності. Це, в свою чергу, може призвести до помилкових висновків про те, наскільки важливим є алгоритм, ніж випадковість.
Машинна література з цієї теми по суті розробила три стратегії рішення.
Ви можете відновити баланс на навчальному наборі по Undersampling великого класу або передискретизации невеликого класу, щоб запобігти зсуву від виникаючих в першу чергу.
Крім того, ви можете змінити витрати на помилкову класифікацію, як зазначено в попередній відповіді, знову, щоб запобігти упередженості.
Додатковим запобіжним засобом є заміна точності так званою врівноваженою точністю . Він визначається як середнє арифметичне точності класу, де і представляють точність, отриману на позитивних та негативних прикладах відповідно. Якщо класифікатор працює однаково добре для будь-якого класу, цей термін зменшується до звичайної точності (тобто кількості правильних прогнозів, поділених на загальну кількість прогнозів). На противагу цьому, якщо звичайна точність є вище шансу лише тому, що класифікатор використовує перевагу неврівноваженого тестового набору, то врівноважена точність, у відповідних випадках, впаде до випадковості (див. Ескіз нижче).π+π-ϕ : = 12( π++ π-) ,π+π-
Я рекомендую розглянути принаймні два з вищезазначених підходів. Наприклад, ви можете переоцінити вибір міноритарного класу, щоб запобігти придбанню класифікатора відхилення на користь мажоритарного класу. Слідом за цим, оцінюючи продуктивність свого класифікатора, ви можете замінити точність на збалансовану точність. Два підходи є взаємодоповнюючими. Якщо вони застосовуються разом, вони повинні допомогти вам запобігти початковій проблемі та уникнути помилкових висновків, що випливають із неї.
Я би радий розмістити кілька додаткових посилань на літературу, якщо ви хочете продовжити це.