Преамбула
Це довгий пост. Якщо ви перечитуєте це, зауважте, що я переглянув частину питання, хоча довідковий матеріал залишається тим самим. Крім того, я вважаю, що я розробив рішення проблеми. Це рішення з’являється внизу публікації. Дякую CliffAB, що вказав, що моє оригінальне рішення (відредаговане з цієї публікації; див. Історію редагування для цього рішення) обов'язково дало необ’єктивні оцінки.
Проблема
У проблемах класифікації машинного навчання одним із способів оцінювання продуктивності моделі є порівняння кривих ROC або площі під кривою ROC (AUC). Однак, на моє зауваження, існує мізерна дискусія щодо мінливості кривих ROC або оцінки AUC; тобто вони є статистикою, оціненою за даними, і тому з ними пов'язана помилка. Характеризація помилки в цих оцінках допоможе охарактеризувати, наприклад, чи дійсно один класифікатор перевершує інший.
Я розробив наступний підхід, який я називаю Байєсовим аналізом кривих ROC, щоб вирішити цю проблему. У моїй думці про проблему є два ключових спостереження:
Криві ROC складаються з оціночних величин, отриманих за даними, і піддаються байєсівському аналізу.
Крива ROC складається з побудови графіку справжньої позитивної швидкості проти помилкової додатної ставки , кожна з яких сама по собі оцінюється за даними. Я вважаю і функції , поріг прийняття рішення використовується для класу сортування А з В (дерево голосів у випадковому лісі, відстань від гиперплоскости в SVM, передбачених ймовірностей в логістичній регресії і т.д.). Зміна значення порогу рішення поверне різні оцінки та . Більше того, ми можемо розглянутиF P R ( θ )F P R θ θ T P R F P R T P R ( θ )бути оцінкою ймовірності успіху в послідовності випробувань Бернуллі. Справді, TPR визначається як яка є також MLE ймовірності біноміального успіху в експерименті з успіхів і загальних випробувань.TPTP+FN>0
Таким чином, розглядаючи вихід і як випадкові величини, ми стикаємося з проблемою оцінки ймовірності успіху біноміального експерименту, в якому кількість успіхів і невдач точно відома (задано через , , і , які, я припускаю, все виправлено). Зазвичай, просто використовується MLE і передбачається, що TPR і FPR закріплені за конкретними значеннямиF P R ( θ ) T P F P F N T N θ θ. Але в моєму байєсівському аналізі кривих ROC я малюю заднє моделювання кривих ROC, які отримуються шляхом малювання зразків із заднього розподілу на криві ROC. Стандартна модель Байєсана для цієї проблеми - це ймовірність бінома з бета-версією до ймовірності успіху; задній розподіл за ймовірністю успіху також бета, тому для кожного ми маємо задній розподіл значень TPR та FPR. Це підводить нас до мого другого спостереження.
- Криві ROC не зменшуються. Отож, як тільки вибирають деяке значення та , існує нульова ймовірність вибірки точки в просторі ROC "на південний схід" вибіркової точки. Але вибірка з обмеженою формою є важкою проблемою.F P R ( θ )
Байєсівський підхід може бути використаний для імітації великої кількості AUC з одного набору оцінок. Наприклад, 20 моделювань виглядають так у порівнянні з вихідними даними.
Цей спосіб має ряд переваг. Наприклад, ймовірність того, що AUC однієї моделі більша за іншу, можна безпосередньо оцінити, порівнюючи AUC їх заднього моделювання. Оцінки дисперсії можна отримати за допомогою моделювання, яке дешевше, ніж методи перекомпонування, і ці оцінки не спричиняють проблеми співвіднесених зразків, що виникають у результаті методів перекомпонування.
Рішення
Я розробив рішення цієї проблеми, зробивши третє та четверте спостереження щодо природи проблеми, крім двох вищезгаданих.
F P R ( θ ) і мають граничні щільності, які піддаються моделюванню.
Якщо (віце- ) є бета-розподіленою випадковою змінною з параметрами і (віце і ), ми також можемо врахувати, яка середня щільність TPR серед кількох різних значень які відповідають нашому аналізу. Тобто, ми можемо розглянути ієрархічний процес, коли один вибирає значення з колекції значень отриманих за нашими прогнозованими моделями поза вибіркою, а потім вибирає значення . Розподіл на отримані зразкиF P R ( θ ) T P F N F P T N θ ˜ θ θ T P R ( ˜ θ ) T P R ( ˜ θ ) θ T P R ( θ ) c θ 1 / cЗначення - це щільність справжньої позитивної норми, яка безумовна щодо . Оскільки ми припускаємо бета-модель для , отриманий розподіл являє собою суміш бета-розподілів з кількістю компонентів дорівнює розміру нашої колекції , та коефіцієнтам суміші .
У цьому прикладі я отримав наступний CDF на TPR. Зокрема, через виродженість бета-розподілів, де один із параметрів дорівнює нулю, деякі компоненти суміші мають функцію дельти Дірака при 0 або 1. Це те, що викликає раптові сплески при 0 і 1. Ці "шипи" означають, що ці щільності не є ні безперервними, ні дискретними. Вибір попереднього, який є позитивним в обох параметрах, призведе до «згладжування» цих раптових шипів (не показано), але отримані криві ROC будуть потягнуті до попереднього. Те саме можна зробити і для FPR (не показано). Малювання зразків від граничних щільностей - це просте застосування вибіркового обертання перетворень.
Щоб вирішити вимогу обмеження форми, нам просто необхідно сортувати TPR та FPR незалежно.
Вимога, що не зменшується, така ж, як вимога, що граничні зразки з TPR та FPR сортуються незалежно, тобто форма кривої ROC повністю визначається вимогою, щоб найменше значення TPR було з'єднане з найменшим FPR значення тощо, що означає, що побудова випадкової вибірки, обмеженої формою, тут тривіальна. Для неправильного до цього моделювання надає докази того, що побудова кривої ROC таким чином створює зразки із середньою AUC, яка сходиться до вихідної AUC у межах великої кількості вибірок. Нижче наведено KDE з 2000 моделювання.
Порівняння Bootstrap
У тривалій дискусії в чаті з @AdamO (спасибі, AdamO!) Він зазначив, що існує кілька встановлених методів порівняння двох кривих ROC або для характеристики змінності однієї кривої ROC, серед них завантажувальний. Тому в якості експерименту я спробував завантажувати мій приклад, який як спостережень у наборі затримань і порівнював результати з методом Байєса. Результати порівнюються нижче (Реалізація завантажувальної програми тут є простою завантажувальною програмою - вибіркова вибірка з заміною розміру вихідного зразка. Початкове зчитування на завантажувальних інструментах виявляє значні прогалини в моїх знаннях щодо методів повторної вибірки, тому, можливо, це не відповідний підхід.)
Ця демонстрація показує, що середнє значення завантажувальної стрічки зміщене нижче середнього рівня початкового зразка, і що KDE завантажувального пристрою дає чітко визначені "горбки". Генезис цих горбів навряд чи загадковий - крива ROC буде чутливою до включення кожної точки, а ефект невеликої вибірки (тут, n = 20) полягає в тому, що основна статистика є більш чутливою до включення кожного бал. (Підкреслюється, що це малювання не є артефактом пропускної здатності ядра - зверніть увагу на сюжет килимів. Кожна смуга - це кілька копій завантажувальної програми, які мають однакове значення. У завантажувальній програмі є 2000 повторень, але кількість чітких значень явно набагато менша. Ми можна зробити висновок, що горбки є невід'ємною особливістю процедури завантаження.) На противагу цьому середні оцінки байесівських AUC, як правило, дуже близькі до початкової оцінки,
Питання
Моє переглянуте питання полягає в тому, чи є моє переглянуте рішення невірним. Хороша відповідь доведе (або спростує), що отримані зразки кривих ROC є упередженими, або аналогічно підтверджують або спростують інші якості цього підходу.