Як вибрати ймовірність відсічення для рідкісної події Логістична регресія


11

У мене 100 000 спостережень (9 фіктивних змінних показників) з 1000 позитивних. Логістична регресія повинна спрацьовувати нормально в цьому випадку, але ймовірність відсічення мене спантеличує.

У загальній літературі ми обираємо 50% відсікання для прогнозування 1 і 0. Я не можу цього зробити, оскільки моя модель дає максимальне значення ~ 1%. Тож поріг може бути 0,007 або десь навколо нього.

Я розумію ROCкриві і як область під кривою може допомогти мені вибрати між двома моделями LR для одного і того ж набору даних. Однак ROC не допомагає мені вибрати оптимальну ймовірність відсічення, яку можна використовувати для тестування моделі на даних, що не мають вибірки.

Чи слід просто використовувати значення обрізання, яке мінімізує значення misclassification rate? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )

Додано -> На такий низький показник подій, на мій рівень неправильної класифікації впливає величезна кількість помилкових позитивних результатів. Хоча швидкість над усіма виглядає хорошою, оскільки загальний розмір Всесвіту також великий, але моя модель не повинна мати стільки помилкових позитивних результатів (оскільки це модель повернення інвестицій). Коефіцієнт 5/10 значущий.


3
Саме відносна вартість двох видів помилкової класифікації разом з їх вірогідністю повинна визначати скорочення. Якщо ви просто хочете перевірити імовірнісну модель, обчисліть її бал AUC або Brier при застосуванні до тестового набору.
Scortchi

Це може бути хорошою відповіддю: stats.stackexchange.com/a/25398/5597
Tae-Sung Shin

Також відповідні відповіді тут і тут .
Scortchi

@ Tae-SungShin Дякую за посилання. Це корисно. Я думаю, що немає однозначної відповіді на мій Q. Моя модель страждає від великої кількості помилкових позитивних результатів.
Maddy

@Scortchi Дякую Використання AUC могло бути корисним, якби я порівнював 2 різні моделі регресійної логістики (з додатковими прогнозами), але я не впевнений, як це допомагає мені в моєму випадку. Це дає мені загальну ймовірність успіху моєї моделі, але це не допомагає мені вибрати ймовірність відсічення.
Maddy

Відповіді:


5

Я не погоджуюся з тим, що 50-відсоткове відсічення є по суті дійсним або підтримується літературою. Єдиний випадок, коли таке відключення може бути виправданим, - це в проекті контрольного випадку, коли поширеність результату становить рівно 50%, але навіть тоді вибір буде залежно від кількох умов. Я думаю, що основним обґрунтуванням вибору відключення є бажана робоча характеристика діагностичного тесту.

Для досягнення бажаної чутливості або специфічності може бути обрано відсічення. Для прикладу цього зверніться до літератури про медичні вироби. Чутливість часто встановлюється у фіксованій кількості: приклади включають 80%, 90%, 95%, 99%, 99,9% або 99,99%. Зменшення чутливості / специфічності слід порівнювати з шкідливими помилками типу I та типу II. Часто, як і при статистичному тестуванні, шкода помилки I типу є більшою, тому ми контролюємо цей ризик. Проте ці шкоди рідко піддаються кількісній оцінці. Через це у мене є основні заперечення щодо методів відбору виплат, які покладаються на єдиний показник точності прогнозування: вони неправильно передають, що шкода може бути і була кількісно визначена.

Ваш випуск занадто багато помилкових позитивних прикладів є прикладом зворотного: помилка типу II може бути більш шкідливою. Тоді ви можете встановити поріг для досягнення бажаної специфічності та повідомити про досягнуту чутливість при цьому порозі.

Якщо ви виявите, що обидва занадто низькі, щоб бути прийнятними для практики, ваша модель ризику не працює, і її слід відхилити.

Чутливість та специфічність легко обчислюють або переглядають із таблиці за всіма діапазонами можливих значень відключення. Проблема з ROC полягає в тому, що вона опускає конкретну інформацію відсікання з графіки. Отже, ROC не має значення для вибору значення відсічення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.