Відповіді:
Коли ви робите логістичну регресію, вам дають два класи, кодовані як і . Тепер ви обчислюєте ймовірності того, що з урахуванням деяких пояснювальних варіантів людина належить до класу, кодованого як . Якщо ви виберете поріг ймовірності та класифікуєте всіх осіб із ймовірністю, що перевищує цей поріг, як клас та нижче як, ви в більшості випадків будете робити деякі помилки, оскільки зазвичай дві групи не можуть бути дискриміновані ідеально. Для цього порогу тепер можна обчислити свої помилки та так звану чутливість та специфічність. Якщо ви робите це для багатьох порогів, ви можете побудувати криву ROC, побудувавши чутливість проти 1-Специфічності для багатьох можливих порогів. Область під кривою грає, якщо ви хочете порівняти різні методи, які намагаються розмежувати два класи, наприклад, дискримінантний аналіз або пробіт-модель. Ви можете побудувати криву ROC для всіх цих моделей, а та, яка має найвищу площу під кривою, може розглядатися як найкраща модель.
Якщо вам потрібно глибше зрозуміти, ви також можете прочитати відповідь на інше питання щодо кривих ROC, натиснувши тут.
Модель логістичної регресії - метод прямої оцінки ймовірностей. Класифікація не повинна грати ніякої ролі при її використанні. Будь-яка класифікація, що не ґрунтується на оцінці комунальних послуг (функція втрат / витрат) за окремими предметами, є недоцільною, за винятком надзвичайних надзвичайних ситуацій. Крива ROC тут не корисна; не є чутливістю або специфічністю, які, як і загальна точність класифікації, є невідповідними правилами оцінювання точності, які оптимізовані хибною моделлю, що не відповідає максимальній оцінці ймовірності.
Я не автор цього блогу, і я вважаю цей блог надзвичайно корисним: http://fouryears.eu/2011/10/12/roc-area-under-the-curve-explained
Застосовуючи це пояснення до своїх даних, середній позитивний приклад має приблизно 10% негативних прикладів, набраних вище.