Преамбула

Це довгий пост. Якщо ви перечитуєте це, зауважте, що я переглянув частину питання, хоча довідковий матеріал залишається тим самим. Крім того, я вважаю, що я розробив рішення проблеми. Це рішення з’являється внизу публікації. Дякую CliffAB, що вказав, що моє оригінальне рішення (відредаговане з цієї публікації; див. Історію редагування для цього рішення) обов'язково дало необ’єктивні оцінки.

Проблема

У проблемах класифікації машинного навчання одним із способів оцінювання продуктивності моделі є порівняння кривих ROC або площі під кривою ROC (AUC). Однак, на моє зауваження, існує мізерна дискусія щодо мінливості кривих ROC або оцінки AUC; тобто вони є статистикою, оціненою за даними, і тому з ними пов'язана помилка. Характеризація помилки в цих оцінках допоможе охарактеризувати, наприклад, чи дійсно один класифікатор перевершує інший.

Я розробив наступний підхід, який я називаю Байєсовим аналізом кривих ROC, щоб вирішити цю проблему. У моїй думці про проблему є два ключових спостереження:

Криві ROC складаються з оціночних величин, отриманих за даними, і піддаються байєсівському аналізу.

Крива ROC складається з побудови графіку справжньої позитивної швидкості проти помилкової додатної ставки , кожна з яких сама по собі оцінюється за даними. Я вважаю і функції , поріг прийняття рішення використовується для класу сортування А з В (дерево голосів у випадковому лісі, відстань від гиперплоскости в SVM, передбачених ймовірностей в логістичній регресії і т.д.). Зміна значення порогу рішення поверне різні оцінки та . Більше того, ми можемо розглянути $TPR(\theta)$ $FPR(\theta)$ $TPR$ $FPR$ $\theta$ $\theta$ $TPR$ $FPR$ $TPR(\theta)$ бути оцінкою ймовірності успіху в послідовності випробувань Бернуллі. Справді, TPR визначається як яка є також MLE ймовірності біноміального успіху в експерименті з успіхів і загальних випробувань. $\frac{TP}{TP+FN},$ $TP$ $TP+FN>0$

Таким чином, розглядаючи вихід і як випадкові величини, ми стикаємося з проблемою оцінки ймовірності успіху біноміального експерименту, в якому кількість успіхів і невдач точно відома (задано через , , і , які, я припускаю, все виправлено). Зазвичай, просто використовується MLE і передбачається, що TPR і FPR закріплені за конкретними значеннями $TPR(\theta)$ $FPR(\theta)$ $TP$ $FP$ $FN$ $TN$ $\theta$ . Але в моєму байєсівському аналізі кривих ROC я малюю заднє моделювання кривих ROC, які отримуються шляхом малювання зразків із заднього розподілу на криві ROC. Стандартна модель Байєсана для цієї проблеми - це ймовірність бінома з бета-версією до ймовірності успіху; задній розподіл за ймовірністю успіху також бета, тому для кожного ми маємо задній розподіл значень TPR та FPR. Це підводить нас до мого другого спостереження. $\theta$
Криві ROC не зменшуються. Отож, як тільки вибирають деяке значення та , існує нульова ймовірність вибірки точки в просторі ROC "на південний схід" вибіркової точки. Але вибірка з обмеженою формою є важкою проблемою. $TPR(\theta)$ $FPR(\theta)$

Байєсівський підхід може бути використаний для імітації великої кількості AUC з одного набору оцінок. Наприклад, 20 моделювань виглядають так у порівнянні з вихідними даними.

Цей спосіб має ряд переваг. Наприклад, ймовірність того, що AUC однієї моделі більша за іншу, можна безпосередньо оцінити, порівнюючи AUC їх заднього моделювання. Оцінки дисперсії можна отримати за допомогою моделювання, яке дешевше, ніж методи перекомпонування, і ці оцінки не спричиняють проблеми співвіднесених зразків, що виникають у результаті методів перекомпонування.

Рішення

Я розробив рішення цієї проблеми, зробивши третє та четверте спостереження щодо природи проблеми, крім двох вищезгаданих.

$TPR(\theta)$ і мають граничні щільності, які піддаються моделюванню. $FPR(\theta)$

Якщо (віце- ) є бета-розподіленою випадковою змінною з параметрами і (віце і ), ми також можемо врахувати, яка середня щільність TPR серед кількох різних значень які відповідають нашому аналізу. Тобто, ми можемо розглянути ієрархічний процес, коли один вибирає значення з колекції значень отриманих за нашими прогнозованими моделями поза вибіркою, а потім вибирає значення . Розподіл на отримані зразки $TPR(\theta)$ $FPR(\theta)$ $TP$ $FN$ $FP$ $TN$ $\theta$ $\tilde{\theta}$ $\theta$ $TPR(\tilde{\theta})$ $TPR(\tilde{\theta})$ Значення - це щільність справжньої позитивної норми, яка безумовна щодо . Оскільки ми припускаємо бета-модель для , отриманий розподіл являє собою суміш бета-розподілів з кількістю компонентів дорівнює розміру нашої колекції , та коефіцієнтам суміші . $\theta$ $TPR(\theta)$ $c$ $\theta$ $1/c$

У цьому прикладі я отримав наступний CDF на TPR. Зокрема, через виродженість бета-розподілів, де один із параметрів дорівнює нулю, деякі компоненти суміші мають функцію дельти Дірака при 0 або 1. Це те, що викликає раптові сплески при 0 і 1. Ці "шипи" означають, що ці щільності не є ні безперервними, ні дискретними. Вибір попереднього, який є позитивним в обох параметрах, призведе до «згладжування» цих раптових шипів (не показано), але отримані криві ROC будуть потягнуті до попереднього. Те саме можна зробити і для FPR (не показано). Малювання зразків від граничних щільностей - це просте застосування вибіркового обертання перетворень.

Щоб вирішити вимогу обмеження форми, нам просто необхідно сортувати TPR та FPR незалежно.

Вимога, що не зменшується, така ж, як вимога, що граничні зразки з TPR та FPR сортуються незалежно, тобто форма кривої ROC повністю визначається вимогою, щоб найменше значення TPR було з'єднане з найменшим FPR значення тощо, що означає, що побудова випадкової вибірки, обмеженої формою, тут тривіальна. Для неправильного до цього моделювання надає докази того, що побудова кривої ROC таким чином створює зразки із середньою AUC, яка сходиться до вихідної AUC у межах великої кількості вибірок. Нижче наведено KDE з 2000 моделювання. $\text{Beta}(0,0)$

Порівняння Bootstrap

У тривалій дискусії в чаті з @AdamO (спасибі, AdamO!) Він зазначив, що існує кілька встановлених методів порівняння двох кривих ROC або для характеристики змінності однієї кривої ROC, серед них завантажувальний. Тому в якості експерименту я спробував завантажувати мій приклад, який як спостережень у наборі затримань і порівнював результати з методом Байєса. Результати порівнюються нижче (Реалізація завантажувальної програми тут є простою завантажувальною програмою - вибіркова вибірка з заміною розміру вихідного зразка. Початкове зчитування на завантажувальних інструментах виявляє значні прогалини в моїх знаннях щодо методів повторної вибірки, тому, можливо, це не відповідний підхід.) $n=20$

Ця демонстрація показує, що середнє значення завантажувальної стрічки зміщене нижче середнього рівня початкового зразка, і що KDE завантажувального пристрою дає чітко визначені "горбки". Генезис цих горбів навряд чи загадковий - крива ROC буде чутливою до включення кожної точки, а ефект невеликої вибірки (тут, n = 20) полягає в тому, що основна статистика є більш чутливою до включення кожного бал. (Підкреслюється, що це малювання не є артефактом пропускної здатності ядра - зверніть увагу на сюжет килимів. Кожна смуга - це кілька копій завантажувальної програми, які мають однакове значення. У завантажувальній програмі є 2000 повторень, але кількість чітких значень явно набагато менша. Ми можна зробити висновок, що горбки є невід'ємною особливістю процедури завантаження.) На противагу цьому середні оцінки байесівських AUC, як правило, дуже близькі до початкової оцінки,

Питання

Моє переглянуте питання полягає в тому, чи є моє переглянуте рішення невірним. Хороша відповідь доведе (або спростує), що отримані зразки кривих ROC є упередженими, або аналогічно підтверджують або спростують інші якості цього підходу.

— Sycorax каже, що відновіть Моніку
джерело

Я думаю, ви надто багато вірите в криві ROC. Я не бачив жодного випадку, коли вони призводять до розуміння. Я бачив багато випадків, коли вони призводять до порогів, що насправді погана ідея.

— Френк Харрелл

@FrankHarrell Дякую за замітку, доктор Харрелл. Але для своїх клієнтів мені поставлено завдання розробити класифікатори, які прийматимуть рішення самостійно у дуже великих наборах даних. Я розумію, що в медичному контексті це вкрай малопродуктивно, але аналіз корисності / витрат експертами для кожного спостереження просто недоцільно, коли нам потрібно приймати рішення про тисячі точок даних. Нам потрібно зробити вибір, яку модель використовувати для виконання цього завдання, і ROC / AUC допомагають у цьому рішенні.

— Sycorax каже, що повернеться до Моніки

Оскільки ви передбачили ймовірності, ви все одно не використовуєте класифікатор, принаймні, на початку процесу. Утиліти будуть приймати рішення краще, але якщо ви не можете отримати утиліти, ви все ще можете думати про це інакше, ніж криві ROC, використовуючи криві підйому та поріги ризику прийняття рішення. Це насправді не медичне питання.

— Френк Харрелл

Для демонстрації, припустимо, що у нас є і ми знаємо, що незначно Unif (0,1) (тобто бета (1,1)). Це схоже на обмеження форми вашої проблеми (трохи змінене, але вашу проблему можна побачити саме так). Зауважте, що це не повністю характеризує ймовірність суглобів. І ми можемо побачити, що ваша схема вибірки призведе до абсолютно різних розподілів, якби ми почали з або (тобто з того, з чого ми почали, в середньому буде більше, ніж з іншого).

X_{1} + X_{2} < 1

$X_1 + X_2 < 1$

X_{1}, X_{2} \sim

$X_1, X_2 \sim$

X_{1}

$X_1$

X_{2}

$X_2$

— Кліф АВ

Почніть з моїх курсових конспектів - див. Biostat.mc.vanderbilt.edu/CourseBios330 . Також дивіться біостатику для біомедичних досліджень, доступну на сайті biostat.mc.vanderbilt.edu/ClinStat , особливо розділ «Інформаційні втрати» та початок глави 10.

— Френк Харрелл

По-перше, не існує прийнятого способу "аналізу" кривої ROC: це лише графіка, яка зображує здатність прогнозування класифікаційної моделі. Ви, звичайно, можете підсумувати криву ROC, використовуючи c-статистику або AUC, але обчислення довірчих інтервалів та виконання умовиводу з використанням -статистики добре зрозуміло через його відношення до U-статистики Вілкоксона. $c$

Загальновизнано, що ви можете оцінити мінливість кривих ROC, використовуючи завантажувальний механізм cf Pepe Etzione Feng . Це приємний підхід, тому що крива ROC - це емпірична оцінка, а завантажувальний ряд - непараметричний. Параметризуючи що-небудь таким способом, вводяться припущення та ускладнення, такі як "чи є попередня квартира справді неінформативною?" Я не переконаний, що це так і тут.

Нарешті, є питання щодо імовірності псевдо. Ви можете викликати мінливість кривих ROC, додавши пріоритет на який у всьому використанні ROC є єдиним, що зазвичай не вважається випадковою змінною. Тоді ви припускали, що мінливість у TPR та FPR, індукована мінливістю у є незалежною . Вони не є. Насправді вони повністю залежні. Ви сортуєте обчислення байєсівської задньої частини для власної ваги в кілограмах і фунтах і говорите, що вони не залежать один від одного. $\theta$ $\theta$

Візьмемо, як приклад, модель із ідеальною дискримінацією. Використовуючи свій метод, ви побачите, що смуги довіри - це одиниця квадрата. Вони не є! У моделі з досконалою дискримінацією немає змінності. Завантажувальна програма покаже вам це.

Якби підходити до питання "аналізу" ROC з байєсівської точки зору, можливо, було б найбільш корисно вирішити проблему вибору моделі, поставивши пріоритет на простір моделей, що використовуються для аналізу. Це було б дуже цікавою проблемою.

— АдамО
джерело

Я не впевнений, що ця відповідь відповідає змісту публікації. Наприклад, я просто імітував криві ROC для моделі з ідеальною дискримінацією. Ці криві зосереджені в крайньому північно-західному куті простору ROC, а центральний інтервал навколо моделювання AUC є деякими числами, дуже близькими до 1. Це прямо суперечить твердженню у відповіді, яке стверджує, що моделювання повинні лежати по всій площі одиниць.

— Sycorax каже, що повернеться до Моніки

θ

$\theta$

θ

$\theta$

T P R (θ)

$TPR(\theta)$

F P R (θ)

$FPR(\theta)$

θ

$\theta$

θ

$\theta$

θ

$\theta$

@ user777, що саме має пріоритет?

— AdamO

Чи я просто винайшов байєсівський метод аналізу кривих ROC?

Преамбула

Проблема

Рішення

Порівняння Bootstrap

Питання