Криві ROC для постійних даних Войтека Дж. Кржановського та Девіда Дж. Рука (2009) - це чудова орієнтир для всіх речей, пов'язаних з кривими ROC. Він збирає ряд результатів у тому, що розчаровує широку літературну базу, яка часто використовує різну термінологію для обговорення однієї теми.
Крім того, ця книга пропонує коментарі та порівняння альтернативних методів, які були отримані для оцінки однакових величин, і вказує, що деякі методи роблять припущення, які можуть бути неможливими у конкретних контекстах. Це один такий контекст; інші відповіді повідомляють про метод Hanley & McNeil, який передбачає бінормальну модель розподілу балів, що може бути недоречним у випадках, коли розподіл балів за класом не є (близьким до) нормальним. Припущення щодо нормально розподілених балів здається особливо недоречним у сучасних контекстах машинного навчання , типові поширені моделі, такі як xgboost, як правило, дають бали з розподілом "ванна" для класифікаційних завдань (тобто розподілів з високою щільністю в крайніх межах близько 0 і 1 ).
Питання 1 - AUC
Розділ 6.3 обговорює порівняння AUC AOC для двох кривих ROC (стор. 113-114). Зокрема, я розумію, що ці дві моделі є співвіднесеними, тому інформація про те, як обчислити є критично важливою тут; в іншому випадку ваша тестова статистика буде упереджена, оскільки вона не враховує внесок кореляції.r
У випадку некорельованих кривих ROC, що не ґрунтуються на будь-яких параметричних припущеннях розподілу, статистика для тетів та довірчих інтервалів, що порівнюють AUC, може бути прямо на основі оцінок та ^ AUC 2 значень AUC та оцінок їх стандартних відхилень S 1 та S 2 , як зазначено в розділі 3.5.1:AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Щоб поширити такі тести на випадок, коли для обох класифікаторів використовуються однакові дані, нам потрібно врахувати кореляцію між оцінками AUC:
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
де - оцінка цього співвідношення. Хенлі та Макнейл (1983) зробили таке розширення, спираючись на свій аналіз на бінормальний випадок, але дали лише таблицю, що показує, як обчислити розрахунковий коефіцієнт кореляції r з кореляції r P двох класифікаторів в межах класу P та співвідношення r n двох класифікаторів класу N, кажучи, що математичне виведення було доступне на запит. Різні інші автори (наприклад, Zou, 2001) розробили тести, засновані на бінормальній моделі, припускаючи, що можна знайти відповідне перетворення, яке одночасно перетворить розподіл балів класів P і N у нормальне.rrrPrn
DeLong et al (1988) скористалися тотожністю між AUC та статистикою тесту Манна-Уітні разом з результатами теорії узагальненої -статистики за Сен (1960), щоб отримати оцінку кореляції між AUC, що не покладається на бінормальне припущення. Фактично, DeLong et al (1988) представили наступні результати для порівнянь між k ≥ 2 класифікаторами.Uk≥2
У розділі 3.5.1 ми показали, що площа під емпіричною кривою ROC дорівнювала статистиці Манна-Уітні , і вона була заданаU
деsPi,i=1,…,nP- оцінка дляоб’єктівкласуP,аsNj,j=1,…,nN- бали заоб’єктикласуNу вибірці. Припустимо, у нас єkкласифікаторів, що дають балиs r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk і s r P i , j = 1 , … , n P [Я виправив помилку індексації в цій частині - Sycorax], і ^ A U C r , r = 1 , … , k . ВизначтеsrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
і
V r 01 =1
Vr10=1nN∑j=1nN[I(srPi>srNj)+12I(srPi=srNj)],i=1,…,nP
Vr01=1nP∑i=1nP[I(srPi>srNj)+12I(srPi=srNj)],j=1,…,nN
далі, визначимо матрицю W 10 з ( r , s ) -го елемента
w r , s 10 = 1k×kW10(r,s)
іматрицяk×kW01з(r,s)th елемент
w r
wr,s10=1nP−1∑i=1nP[Vr10(sPi)−AUCˆr][Vs10(sPi)−AUCˆs]
k×kW01(r,s)
Тоді оцінена матриця коваріації для вектора( ^ A U C 1,…, ^ A U C kwr,s01=1nN−1∑i=1nN[Vr01(sNi)−AUCˆr][Vs01(sNi)−AUCˆs]
розрахункових площ під кривими становить
W = 1(AUCˆ1,…,AUCˆk)з елементамиwr,s. Це узагальнення результату для передбачуваної дисперсії однієї оціненої AUC, також наведеної в розділі 3.5.1. У випадку двох класифікаторів оцінене співвідношенняrміж оціненими AUC таким чином задаєтьсяw1,2W=1nPW10+1nNW01
wr,sr які можна використовувати вzвище.w1,2w1,1w2,2√z
Оскільки інша відповідь дає вирази Хенлі та Мак-ніла для оцінювачів дисперсії AUC, тут я відтворять оцінювач DeLong з p. 68:
Альтернативний підхід завдяки DeLong et al (1988) та прикладом Pepe (2003) дає, мабуть, більш просту оцінку і той, який вводить додаткову корисну концепцію вартості розміщення. Значення розміщення балів по відношенню до визначеної сукупності становить те, що функція виживання населення в s . Це значення розміщення для s для населення N дорівнює 1 - F ( s ), а для s для населення P - 1 - G ( s ) . Емпіричні оцінки значень розміщення задаються очевидними пропорціями. Таким чином, значення розміщення спостереження s Nsss1−F(s)s1−G(s) в популяції P, позначенійs P N i , - частка значень вибірки з P, що перевищуютьs N i , аvar(s N P i )- дисперсія значень розміщення кожного спостереження від N щодо популяції P. ..sNisPNisNivar(sNPi)
DeLong et al (1988) оцінка дисперсії наведена у вигляді цих дисперсій:
s 2 ( ^ A U C ) = 1AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Зауважимо, що - функція кумулятивного розподілу балів у сукупності N, G - функція кумулятивного розподілу балів у сукупності P. Стандартним способом оцінювання F та G є використання ecdf . Книга також пропонує деякі альтернативні методи оцінювання ecdf, такі як оцінка щільності ядра, але це не виходить за межі цієї відповіді.FGFG
Статистику і z можна вважати стандартними нормальними відхиленнями, а статистичні тести нульової гіпотези протікають звичайним чином. (Див. Також: перевірка гіпотез )Zz
Це спрощений контур на високому рівні того, як працює тестування гіпотез:
Тестування, за вашими словами, "чи один класифікатор значно кращий за інший", можна переосмислити як тестування нульової гіпотези про те, що дві моделі мають статистично однакові AUCs проти альтернативної гіпотези, що статистика неоднакова.
Це тест з двома хвостами.
Ми відкидаємо нульову гіпотезу, якщо статистика тесту знаходиться у критичній області опорного розподілу, що є стандартним нормальним розподілом у цьому випадку.
αz>1.96z<−1.96α/21−α/2
Питання 1 - Чутливість та специфічність
t
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
Основним моментом стику є розробка відповідного тесту, враховуючи, що обидві пропорції вибірки будуть співвіднесені (як ви застосували дві моделі до одних і тих самих даних тесту). Це звернено на с. 111.
tpfpt(tp1−tp2)/s12tpiis212tp1tp2
tp1tp2
N
tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
M=(b−c)2b+c
χ21α=95%M>3.841459
srPisrNj
Питання 2
Здається, що достатньо об'єднати результати шляхом усереднення значень прогнозування для кожного респондента, так що для кожної моделі у вас є 1 вектор із 100 усереднених прогнозованих значень. Потім обчислюйте статистику RUC, чутливість та специфічність, як зазвичай, як би не існували оригінальні моделі. Це відображає стратегію моделювання, яка розглядає кожну з 5 респондентів моделей як одну з "комітетів" моделей, на зразок ансамблю.