Чому відрізок P> 0,5 не є "оптимальним" для логістичної регресії?


13

ПЕРЕДБАЧЕННЯ: Мене не хвилюють переваги використання обрізання чи ні, або як слід обрати обріз. Моє питання суто математичне і обумовлене цікавістю.

Логістична регресія моделює задню умовну ймовірність класу А проти класу В, і вона відповідає гіперплану, коли задні умовні ймовірності рівні. Тож теоретично я зрозумів, що точка класифікації 0,5 зведе до мінімуму загальну кількість помилок незалежно від встановленого балансу, оскільки вона моделює задню ймовірність (за умови, що ви послідовно стикаєтесь з тим же співвідношенням класів).

У прикладі реального життя я отримую дуже низьку точність, використовуючи P> 0,5, як мій класифікаційний обріз (близько 51% точності). Однак, коли я подивився на AUC, це вище 0,99. Тож я переглянув деякі різні значення обрізання і виявив, що P> 0,6 дав мені 98% точності (90% для меншого класу і 99% для більшого класу) - лише 2% випадків були некласифіковані.

Класи сильно незбалансовані (1: 9), і це велика проблема. Однак я розподілив класи в рівній мірі для кожного набору перехресних перевірок, щоб не було різниці між балансом класів між підходом до моделі та прогнозуванням. Я також спробував використати ті самі дані, що й у відповідності з моделлю, і в прогнозах.

Мене цікавить причина, чому 0,5 не зведе до мінімуму помилки, я вважав, що це буде задумом, якщо модель підходить шляхом мінімізації крос-ентропійних втрат.

Хтось має відгуки щодо того, чому це відбувається? Це через додавання пеналізації, чи може хтось пояснити, що відбувається, якщо так?



Скортчі, чи не могли б ви бути трохи більш конкретними щодо того, яке питання про скорочення, на вашу думку, є актуальним? Я не бачив відповідного питання чи відповіді перед публікацією, ні зараз.
felix000

Вибачте, я не мав на увазі, що всі вони відповіли на ваш запитання. Але я вважав, що вони всі доречні в тому, щоб запропонувати не використовувати точність при будь-якому відрізанні як показник ефективності, або принаймні не довільне відключення, не обчислене з утиліти функція.
Scortchi

Відповіді:


16

Вам не доведеться отримувати передбачувані категорії з логістичної регресійної моделі. Це може бути прекрасним перебуванням із прогнозованими ймовірностями. Якщо ви отримуєте передбачувані категорії, ви не повинні використовувати цю інформацію, щоб робити щось інше, ніж сказати: «це спостереження найкраще віднести до цієї категорії». Наприклад, вам не слід використовувати «точність» / відсоток правильності для вибору моделі.

Якщо сказати це, то рідко стане оптимальним відрізком для класифікації спостережень. Щоб зрозуміти, як це могло статися, уявіть, що у вас було із спостереженнями у позитивній категорії. Проста модель, яка перехоплюється, може легко мати помилкових негативів, коли ви використовуєте як відсікання. З іншого боку, якби ви просто назвали все позитивним, у вас був би хибний позитив, але правильний. .50N=1009949.50199%

.5050%.50


Привіт, дякую за ваше пояснення, проте я не розумію приклад із моделлю, що перехоплює лише перехоплення. У моделі лише для перехоплення у вас буде 0,99 для будь-яких прикладів, тому ви отримаєте 99% точності, взявши будь-яке порогове значення.
abcdaire

0

Я думаю, це може бути через кілька причин:

  1. У ваших даних може бути нелінійність, тому лінійне додавання ваг може не завжди призводити до правильних імовірностей
  2. Змінні - це сукупність хороших прогнозів і слабких предикторів, тому кількість набраних оцінок, що становить близько .5, пояснюється слабкими предикторами або меншим ефектом сильних прогнозів. Коли ви йдете вище, ви отримуєте людей, для яких ефект прогнозів сильний

Отже, вам, можливо, доведеться колись пограти зі значенням відключення, щоб досягти максимального бажаного результату, як точність, точність тощо. Тому що більшість часу не дуже однорідні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.