У мене є завдання класифікації, де у мене є ряд предикторів (один з яких є найбільш інформативним), і я використовую модель MARS для побудови свого класифікатора (мене цікавить будь-яка проста модель, і використання glms для ілюстративних цілей було б теж добре). Зараз у мене є величезний класовий дисбаланс у навчальних даних (близько 2700 негативних зразків для кожної позитивної вибірки). Подібно до завдань з пошуку інформації, мене більше хвилює прогнозування позитивних тестових зразків вищого рейтингу. З цієї причини для мене важлива продуктивність на кривих Precision Recall.
Перш за все, я просто навчив модель на своїх даних про навчання, зберігаючи дисбаланс класу таким, яким він є. Я візуалізую свою навчену модель червоним кольором, а найважливіший - синім кольором.
Навчання незбалансованим даним, оцінка неврівноважених даних :
Думаючи, що дисбаланс класу викидає модель, оскільки вивчення позитивних зразків вищого рейтингу є несуттєвою частиною всього набору даних, я збільшив вибір позитивних балів для навчання, щоб отримати збалансований набір навчальних даних. Коли я будую виставу на збалансованому навчальному наборі, я отримую хороші показники. І в кривих PR, і в ROC, моя навчена модель робить краще, ніж вхідні.
Тренінг щодо (збірних) збалансованих даних, оцінювання також (збірних) збалансованих даних:
Однак якщо я використовую цю модель, що навчається на збалансованих даних, для прогнозування оригінального, неврівноваженого навчального набору, я все одно отримаю погані показники на кривій PR.
Тренінг щодо (збірних) збалансованих даних, оцінка вихідних незбалансованих даних:
Тому мої запитання:
- Чи є причиною того, що візуалізація кривої PR показує менші показники моєї підготовленої моделі (червона), тоді як крива ROC показує поліпшення через дисбаланс класу?
- Чи може підходи до перекомпонування / відбору проб / відбору проб вирішити це, щоб змусити навчання зосередитись на регіоні високої точності / низького відкликання?
- Чи є якийсь інший спосіб зосередити навчання на регіоні з високою точністю та низьким рівнем нагадування?