Як ви генеруєте криві ROC для перехресної валідації "один-один"?


10

Під час виконання 5-кратної перехресної валідації (наприклад), типово обчислювати окрему криву ROC для кожної з 5-ти кратних і часто разів середньої кривої ROC з std. дев. показано у вигляді товщини кривої.

Однак для перехресної перевірки LOO, де у кожній складці є лише одна тестова точка даних, не представляється сенсом обчислити "криву" ROC для цієї єдиної точки даних.

Я брав усі мої тестові дані (разом з окремо розрахованими p-значеннями) і об'єднував їх в один великий набір для обчислення однієї кривої ROC, але чи це статистично кошерніше робити?

Який правильний спосіб застосувати аналіз ROC, коли кількість точок даних у кожній складці одна (як у випадку перехресної перевірки LOO)?


Чому? Що ти хочеш досягти з такою істотою?

Мені потрібно проаналізувати загальну ефективність прогнозування для діапазону порогових значень p, і криві ROC - це те, що я традиційно використовую для кожного іншого типу перехресної перевірки. Так що в основному ті ж причини, що ROC-аналіз корисний для будь-якої перехресної перевірки k-кратного. Якщо для LOO xval є інший, аналогічний підхід, про це також було б чудово знати. Крім того, я б замість цього зробив щось на кшталт 10-кратного xval, якщо б у мене було достатньо даних, і це не буде проблемою.
користувач1121

1
Я б сказав, що ви робите це розумно, просто створіть єдину криву ROC, використовуючи справжню мітку та передбачуване значення для кожного випадку (де цей випадок був затриманим)
B_Miner

Відповіді:


15

Якщо класифікатор видає ймовірності, то комбінування всіх результатів тестової точки для однієї кривої ROC є відповідним. Якщо ні, то масштабуйте вихід класифікатора таким чином, щоб зробити його безпосередньо порівнянним для класифікаторів. Наприклад, скажімо, ви використовуєте лінійний дискримінантний аналіз. Тренуйте класифікатора, а потім передавайте навчальні дані через класифікатор. Вивчіть дві ваги: ​​параметр шкалиσ (стандартне відхилення виходів класифікатора після віднімання класу означає) і параметр shift мк(середнє значення першого класу). Використовуйте ці параметри для нормалізації сировиниr вихід кожного класифікатора LDA через н=(r-мк)/σ, а потім ви можете створити криву ROC з набору нормованих виходів. Це свідчить про те, що ви оцінюєте більше параметрів, і таким чином результати можуть дещо відхилятися, ніж якби ви побудували криву ROC на основі окремого тестового набору.

Якщо неможливо нормалізувати результати класифікатора або перетворити їх на ймовірності, то аналіз ROC на основі LOO-CV не є доцільним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.