Функція ROC (це не обов'язково крива) дозволяє оцінити здатність до дискримінації, що надається специфічною статистичною моделлю (що складається з змінної предиктора або їх набору).
Основним врахуванням РПЦ є те, що прогнозування моделей не випливає лише з здатності моделі дискримінувати / робити прогнози на основі доказів, наданих змінними прогнозів. Також функціонуючим є критерій відповіді, який визначає, скільки доказів необхідно для того, щоб модель спрогнозувала відповідь, і який результат цих відповідей. Значення, яке встановлюється для критеріїв відповіді, буде сильно впливати на прогнозування моделі та, в кінцевому підсумку, на тип помилок, які вона буде робити.
Розглянемо загальну модель із змінними предиктора та критеріями відповіді. Ця модель намагається передбачити Присутність X, відповідаючи Так або Ні. Отже, у вас є така матриця плутанини:
**X present X absent**
**Model Predicts X Present** Hit False Alarm
**Model Predicts X Absent** Miss Correct Rejection
У цій матриці вам потрібно врахувати лише пропорції Хітів та Помилкових сигналів (адже інші можуть бути отримані з них, враховуючи, що їх до деяких до 1). Для кожного критерію відповіді ви будете використовувати іншу матрицю плутанини. Помилки (пропуски та помилкові сигнали тривоги) негативно пов'язані, це означає, що критерії реагування, що мінімізують помилкові тривоги, максимально збільшують пропуски та навпаки. Повідомлення: безкоштовного обіду немає.
Отже, для того, щоб зрозуміти, наскільки добре модель дискримінує випадки / робить прогнози, незалежно від встановлених критеріїв відповіді, ви побудуєте графіки "Хіти" та "Неправдиві", що виробляються в межах діапазону можливих критеріїв відповіді.
Що ви отримуєте від цього сюжету, це функція ROC. Область під функцією забезпечує неупереджений і непараметричний показник здатності дискримінації моделі. Цей захід є дуже важливим, оскільки він не містить заплутань, які могли б бути спричинені критеріями відповіді.
Другим важливим аспектом є те, що, аналізуючи функцію, можна визначити, які критерії відповіді кращі для ваших цілей. Які типи помилок ви хочете уникнути, а які - помилки. Наприклад, розглянемо тест на ВІЛ: це тест, який шукає якісь докази (в даному випадку антитіла) і робить дискримінацію / прогнозування на основі порівняння даних щодо критерію відповіді. Цей критерій відповіді зазвичай встановлюється дуже низьким, щоб ви мінімізували пропуски. Звичайно, це призведе до більшої кількості помилкових сигналів, які мають вартість, але вартість незначна порівняно з пропущеними.
За допомогою ROCs ви можете оцінити деякі можливості дискримінації моделі, незалежно від критеріїв відповіді, а також встановити оптимальні критерії відповіді, враховуючи потреби та обмеження того, що ви вимірюєте. Випробування на зразок hi-square взагалі не можуть допомогти в цьому, тому що навіть якщо ваше тестування, якщо прогнози є випадковим рівнем, багато різних пар Hit-False Alarm відповідають рівню шансів.
Деякі рамки, як-от теорія виявлення сигналів, априорно припускають, що наявні докази дискримінації мають специфічний розподіл (наприклад, нормальний розподіл або розподіл гами). Коли ці припущення виконуються (або знаходяться досить близько), є кілька дійсно приємних заходів, які полегшують ваше життя.
сподіваємось, це допоможе з’ясувати вас щодо переваг ROC