1) Як я можу змінити поріг класифікації (я думаю, це 0,5 за замовчуванням) у RandomForest у sklearn?
2) як я можу зробити недостатню вибірку в sklearn?
3) У мене є такий результат класифікатора RandomForest: [[1635 1297] [520 3624]]
precision recall f1-score support
class 0 0.76 0.56 0.64 2932
class 1 0.74 0.87 0.80 4144
сер / загально 0,75 0,74 0,73 7076
по-перше, дані незбалансовані (30% від класу-0 та 70% від класу-1). Отже, я вважаю, що класифікатор, швидше за все, є упередженим для класу-1, тобто перехід від класу-0 до класу-1 (існує 1297 пропусків класифікації для класу-0, але 520 пропускних класифікацій для класу-1). Як я можу це виправити? чи може допомогти зниження тиску? чи змінюється поріг класифікації?
Оновлення: клас-0 має 40% населення, а клас-1 - 60%. Однак дрейф від класу-0 до класу-1 (1297) високий, тоді як я хочу, щоб це стало низьким.