Перехресне підтвердження або завантаження для оцінки ефективності класифікації?


24

Який найбільш відповідний метод вибірки для оцінки продуктивності класифікатора для певного набору даних та порівняння його з іншими класифікаторами? Перехресне підтвердження здається стандартною практикою, але я читав, що такі методи, як завантажувальний .632, є кращим вибором.

Надалі: Чи впливає вибір метрики ефективності на відповідь (якщо я використовую AUC замість точності)?

Моєю кінцевою метою є можливість впевнено сказати, що один метод машинного навчання перевершує інший для певного набору даних.


1
Bootstrap (із заміною) може використовуватися у вашому наборі даних про навчання, замість, наприклад, (повторної) перехресної перевірки k-кратної кратності. Дивіться також: Відмінності між перехресною валідацією та завантажувальною програмою для оцінки помилки прогнозування , Розуміння завантажувальної програми для перевірки та вибору моделі .
chl

Відповіді:


42

Однією важливою відмінністю звичайних способів крос-валідації та методів поза завантаження є те, що більшість людей застосовують крос-валідацію лише один раз (тобто кожен випадок перевіряється точно один раз), тоді як перевірка поза завантаженням виконується з великою кількістю повторів / ітерацій. У цій ситуації перехресне підтвердження піддається більш високій дисперсії через нестабільність моделі. Однак цього можна уникнути, використовуючи, наприклад, ітераційну / повторну кратну перехресну перевірку. Якщо це зроблено, принаймні для спектроскопічних наборів даних, з якими я працював, загальна помилка обох схем перекомполяції здається однаковою на практиці.к

Перехресне підтвердження відмовитись від одноразового перешкоджання, оскільки немає можливості зменшити дисперсію типу нестабільності моделі, а також існують деякі класифікатори та проблеми, коли вона демонструє величезний песимістичний ухил.

.632 завантажувальна програма виконує розумну роботу до тих пір, поки помилка перекомпонування, в яку змішується, не є надто оптимістично упередженою. (Наприклад, для даних, з якими я працюю, дуже широкі матриці з великою кількістю змінних, це не дуже добре, тому що моделі схильні до серйозного накладання). Це означає також, що я б уникав використання .632 завантажувального пристрою для порівняння моделей різної складності. З завантажувальним файлом .632+ я не маю досвіду: якщо надмірне оснащення трапиться і буде належним чином виявлено, воно буде дорівнювати початковій оцінці поза завантаженням, тому я дотримуюсь звичайної oob або повторної перехресної перевірки для моїх даних.

Література:

  • Кохаві, Р .: Дослідження перехресної валідації та завантажувального механізму для оцінки точності та вибору моделей матеріалів штучного інтелекту 14-ї Міжнародної спільної конференції, 20 - 25. серпня 1995 р., Монреаль, Квебек, Канада, 1995, 1137 - 1145 рр.
    (Класика )

Даґерті та Брага-Нето мають ряд публікацій на цю тему , наприклад

Вибір метрики:

Моєю кінцевою метою є можливість впевнено сказати, що один метод машинного навчання перевершує інший для певного набору даних.

  • Використовуйте парний тест, щоб оцінити це. Для порівняння пропорцій погляньте на тест МакНемара.

  • На відповідь на це вплине вибір метрики. Оскільки заходи помилок типу регресії не мають кроку «загартовування» скорочення рішень з порогом, вони часто мають меншу дисперсію, ніж їхні класифікаційні аналоги. Такі метрики, як точність, яка в основному є пропорційними, потребують величезної кількості тестових випадків, щоб встановити перевагу одного класифікатора над іншим.

Фліс: "Статистичні методи для ставок і пропорцій" наводять приклади (та таблиці) для непарного порівняння пропорцій. Щоб скласти уявлення про те, що я маю на увазі під "величезними розмірами вибірки", погляньте на зображення у моїй відповіді на це інше питання . Для парних тестів, таких як МакНемар, потрібні менше тестових випадків, але IIRC все ще в кращому випадку становить половину (?) Зразка, необхідного для непарного тесту.

  • Щоб охарактеризувати продуктивність класифікатора (загартований), вам зазвичай потрібна робоча крива щонайменше двох значень, таких як ROC (чутливість проти специфічності) тощо.
    Я рідко використовую загальну точність або AUC, оскільки мої програми зазвичай мають обмеження, наприклад, що чутливість важливіша, ніж специфічність, або певні межі цих заходів повинні бути дотримані. Якщо ви користуєтесь сумарними характеристиками "єдиного числа", переконайтеся, що робоча точка моделей, на які ви дивитесь, насправді знаходиться в розумному діапазоні.

  • Для точності та інших заходів щодо ефективності, які підсумовують ефективність для декількох класів відповідно до посилальних міток, переконайтеся, що ви враховуєте відносну частоту класів, з якими ви будете стикатися в додатку - що не обов’язково таке, як у вашому дані про навчання або тести.

  • Провост, Ф. та ін. : Справа проти оцінки точності порівняння індукційних алгоритмів у матеріалах п’ятнадцятої міжнародної конференції з машинного навчання, 1998


редагувати: порівняння декількох класифікаторів

Я деякий час думав над цією проблемою, але ще не прийшов до рішення (а також не зустрічав нікого, хто мав рішення).

Ось що у мене поки що:

Наразі я вирішив, що «оптимізація - корінь усього зла», і натомість скористався зовсім іншим підходом:
я вирішую якнайбільше, знаючи експертні знання про проблему. Це фактично дозволяє трохи звузити речі, тому я часто можу уникати порівняння моделей. Коли мені доводиться порівнювати моделі, я намагаюся бути дуже відкритим і чітким, що нагадує людям про невизначеність оцінки продуктивності та про те, що особливо багаторазове порівняння моделей є AFAIK як і раніше невирішеною проблемою.


Редагування 2: парні тести

н12(н2-н)тесту стосується лише того, що, оскільки всі моделі тестуються з абсолютно однаковими тестовими кейсами, ви можете розділити випадки на "легкі" та "складні" випадки, з одного боку, для яких всі моделі доходять правильно (або неправильно) передбачення. Вони не допомагають розрізнити серед моделей. З іншого боку, є "цікаві" випадки, які деякі прогнозують правильно, а не інші моделі. Тільки ці "цікаві" випадки потрібно враховувати для судження переваги, ні "легкі", ні "важкі" випадки в цьому не допомагають. (Ось як я розумію ідею тесту МакНемара).

нн


Дякую за детальну відповідь! Я дуже вдячний, якщо ви могли б детальніше розглянути питання, яке ви зробили: " Використовуйте парний тест, щоб оцінити це. Для порівняння пропорцій погляньте на тест МакНемара". Я повинен трохи перефразувати своє запитання: я хотів би порівняти кілька машин методи навчання відразу, не обов'язково лише пари. Мені не відразу зрозуміло, як парні тести можуть це досягти.
kelvin_11

3
(+6) Приємна відповідь.
chl

@cbeleites Я люблю тебе за цей коментар. Для значення множинного порівняння моделі - як щодо аналізу дисперсійних методів (ANOVA)? наприклад, Крускал – Уолліс ?
Serendipity

1
@Serendipity: Я справді мало знаю про Крускал-Уолліс, щоб дати вам відповідь тут. Але я підозрюю, що ANOVA-подібні методи - це не те, чого тут потрібно шукати, оскільки (1) він не використовує парного характеру даних і (2) він набирає сили порівняно з численними порівняннями, оскільки нульова гіпотеза - це просто "всі моделі виконувати однаково "- якщо це відхилено, ви все ще не знаєте, який алгоритм виконує по-різному. Тому його можна використовувати лише для підкреслення негативних результатів (не має значення, який алгоритм ви виберете). Я б підозрював, що є велика зона, де ANOVA розповідає вам не всі моделі ...
cbeleites підтримує Моніку

... рівні, але у вас недостатньо інформації, щоб дозволити численні порівняння, необхідні для виявлення кращих моделей.
cbeleites підтримує Моніку

6

Вам потрібні зміни до завантажувальної стрічки (.632, .632+) лише тому, що в оригінальному дослідженні було використано переривчасте правило неправильного оцінювання (пропорційно класифіковане). Для інших показників точності звичайний завантажувальний оптимізм, як правило, працює добре. Для отримання додаткової інформації див Http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T

Неправильні правила балів вводять вас в оману щодо вибору особливостей та їх ваги. Іншими словами, все, що може піти не так, піде не так.


4

З "Прикладного прогнозного моделювання", Хун. Джонсон . стор.78

"Жоден метод перекомплектування не є кращим, ніж інший; вибір слід робити, враховуючи кілька факторів. Якщо розмір вибірки невеликий, ми рекомендуємо використовувати повторну перехресну перевірку в 10 разів з кількох причин; властивості зміщення та дисперсії хороші, і розмір вибірки, обчислювальні витрати не великі. Якщо мета полягає у виборі між моделями, на відміну від отримання найкращого показника продуктивності, можна зробити вагомий випадок для використання однієї з процедур завантаження, оскільки вони мають дуже низьку дисперсію. Для великих розмірів вибірки відмінності між методами перекомпонування стають менш вираженими, а обчислювальна ефективність збільшується в продуктивності ". p. 78

Крім того, враховуючи вибір двох подібних результатів, загалом переважна більш інтерпретована модель. Як приклад (з того ж тексту), використовуючи 10-кратне резюме, класифікатор SVM мав оцінку точності 75% з результатами повторної вибірки між 66 і 82%. Ті ж параметри використовувались на класифікаторі логістичної регресії з точністю 74,9% та однаковим діапазоном повторної вибірки. Простіша модель логістичної регресії може бути кращою, оскільки це простіше інтерпретувати результати.


4
Зауважте, що дисперсія, яку ви можете зменшити , виконуючи велику кількість повторень завантаження / перехресної перевірки / повторень, є лише тією частиною дисперсії, яка виходить із нестабільності сурогатних моделей. Ви можете виміряти, чи є це основним внеском у загальну дисперсію шляхом перехресної валідації, оскільки вона тестує кожен зразок рівно один раз під час кожного пробігу, тому дисперсія через кінцевий розмір вибірки не виявляється при порівнянні середніх значень повних перехресних перевірок . Для "жорсткої" класифікації ви можете обчислити дисперсію через кінцевий розмір вибірки від біноміального розподілу.
cbeleites підтримує Моніку

@cbeleites: Чи можете ви, будь ласка, пояснити трохи, що ви маєте на увазі, "він тестує кожен зразок рівно один раз під час кожного запуску, тому дисперсія через обмежений розмір вибірки не виявляється при порівнянні середніх значень повних перехресних перевірок". (посилання теж чудові!) (+1 чітко)
usεr11852 повідомляє Відновити Моніку

@ usεr11852: кожен випадок тестується рівно один раз за перехресну перевірку. Уявіть таблицю з результатами n_sample xr CV. Якщо у нас є стабільні прогнози, всі r передбачення для одного і того ж випадку однакові. Тобто немає різниці по рядах. Але різні випадки можуть отримати різні прогнози (якщо тільки ми не маємо, наприклад, 100% точності): у нас є розбіжність уздовж колон. Тепер стандартною оцінкою повторної / повторної перехресної перевірки є порівняння середніх значень стовпців. Для стійких моделей, це точно так же, навіть якщо ми робимо є дисперсія уздовж стовпців, тобто між випадками.
cbeleites підтримує Моніку

(Якщо моделі / прогнози нестабільні, ми отримуємо різні прогнози за різними сурогатними моделями, а також бачимо відхилення по рядках. Плюс додаткова дисперсія вздовж стовпців, оскільки кожен стовпець у CV-кратному резюме охоплює k різних сурогатних моделей. ) Отже, для вимірювання стійкості моделі / прогнозування (не), можливо, навіть пряміше переходити безпосередньо до дисперсії вздовж рядків, тобто дисперсії прогнозів різних сурогатних моделей на той самий випадок.
cbeleites підтримує Моніку

1
@cbeleites: Дякую вам за роз’яснення. Зараз я можу оцінити точку, яку ви робите більше.
usεr11852 повідомляє Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.