У мене є набір даних, який має атрибут бінарного класу. Є 623 випадки з класом +1 (рак позитивний) та 101 671 екземпляр з класом -1 (рак негативний).
Я випробував різні алгоритми (Naive Bayes, Random Forest, AODE, C4.5), і всі вони мають неприйнятні помилкові відхилення. Випадковий ліс має найвищу загальну точність прогнозування (99,5%) та найнижчий хибний негативний коефіцієнт, але все ж пропускає 79% позитивних класів (тобто не виявляє 79% злоякісних пухлин).
Будь-які ідеї, як я можу покращити цю ситуацію?
Дякую!