ПЕРЕДБАЧЕННЯ: Мене не хвилюють переваги використання обрізання чи ні, або як слід обрати обріз. Моє питання суто математичне і обумовлене цікавістю.
Логістична регресія моделює задню умовну ймовірність класу А проти класу В, і вона відповідає гіперплану, коли задні умовні ймовірності рівні. Тож теоретично я зрозумів, що точка класифікації 0,5 зведе до мінімуму загальну кількість помилок незалежно від встановленого балансу, оскільки вона моделює задню ймовірність (за умови, що ви послідовно стикаєтесь з тим же співвідношенням класів).
У прикладі реального життя я отримую дуже низьку точність, використовуючи P> 0,5, як мій класифікаційний обріз (близько 51% точності). Однак, коли я подивився на AUC, це вище 0,99. Тож я переглянув деякі різні значення обрізання і виявив, що P> 0,6 дав мені 98% точності (90% для меншого класу і 99% для більшого класу) - лише 2% випадків були некласифіковані.
Класи сильно незбалансовані (1: 9), і це велика проблема. Однак я розподілив класи в рівній мірі для кожного набору перехресних перевірок, щоб не було різниці між балансом класів між підходом до моделі та прогнозуванням. Я також спробував використати ті самі дані, що й у відповідності з моделлю, і в прогнозах.
Мене цікавить причина, чому 0,5 не зведе до мінімуму помилки, я вважав, що це буде задумом, якщо модель підходить шляхом мінімізації крос-ентропійних втрат.
Хтось має відгуки щодо того, чому це відбувається? Це через додавання пеналізації, чи може хтось пояснити, що відбувається, якщо так?