Однією важливою відмінністю звичайних способів крос-валідації та методів поза завантаження є те, що більшість людей застосовують крос-валідацію лише один раз (тобто кожен випадок перевіряється точно один раз), тоді як перевірка поза завантаженням виконується з великою кількістю повторів / ітерацій. У цій ситуації перехресне підтвердження піддається більш високій дисперсії через нестабільність моделі. Однак цього можна уникнути, використовуючи, наприклад, ітераційну / повторну кратну перехресну перевірку. Якщо це зроблено, принаймні для спектроскопічних наборів даних, з якими я працював, загальна помилка обох схем перекомполяції здається однаковою на практиці.к
Перехресне підтвердження відмовитись від одноразового перешкоджання, оскільки немає можливості зменшити дисперсію типу нестабільності моделі, а також існують деякі класифікатори та проблеми, коли вона демонструє величезний песимістичний ухил.
.632 завантажувальна програма виконує розумну роботу до тих пір, поки помилка перекомпонування, в яку змішується, не є надто оптимістично упередженою. (Наприклад, для даних, з якими я працюю, дуже широкі матриці з великою кількістю змінних, це не дуже добре, тому що моделі схильні до серйозного накладання). Це означає також, що я б уникав використання .632 завантажувального пристрою для порівняння моделей різної складності. З завантажувальним файлом .632+ я не маю досвіду: якщо надмірне оснащення трапиться і буде належним чином виявлено, воно буде дорівнювати початковій оцінці поза завантаженням, тому я дотримуюсь звичайної oob або повторної перехресної перевірки для моїх даних.
Література:
- Кохаві, Р .: Дослідження перехресної валідації та завантажувального механізму для оцінки точності та вибору моделей матеріалів штучного інтелекту 14-ї Міжнародної спільної конференції, 20 - 25. серпня 1995 р., Монреаль, Квебек, Канада, 1995, 1137 - 1145 рр.
(Класика )
Даґерті та Брага-Нето мають ряд публікацій на цю тему , наприклад
Даггерті, ER та ін. : Виконання оцінок помилок для класифікації поточної біоінформатики, 2010, 5, 53-67
Beleites, C. та ін. : Зменшення відхилення в оцінці помилки класифікації за допомогою розріджених наборів даних Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Ми маємо порівняння, коли ми робимо перехресну перевірку лише один раз або повторюємо / повторюємо, і порівнюємо її з поза завантаженням та .632 завантажувальний треп, а також для особливо широких даних із багатоколінністю.
Kim, J.-H .: Оцінка рівня помилок класифікації: Повторна перехресна перевірка, повторне затримка та завантажувальна програма, обчислювальна статистика та аналіз даних, 2009, 53, 3735 - 374
Також виявляє, що повторне / ітераційне кратне перехресне підтвердження та out-of-bootstrap мають схожу ефективність (на відміну від крос-перевірки лише один раз).к
Вибір метрики:
accuray (з якого @FrankHarrell скаже вам, що це поганий вибір, оскільки це не є правильним правилом оцінювання ) є великою дисперсією, оскільки він вважає кожен випадок як повністю правильним або абсолютно невірним, навіть якщо класифікатор передбачив, наприклад, лише 60 % задня ймовірність належності тесту до відповідного класу. Правильним балом є, наприклад, оцінка Brier, яка тісно пов'язана зі середньою квадратичною помилкою регресії.
Середня квадратна помилка аналогів доступна для таких пропорцій, як точність, чутливість, специфічність, прогнозні значення: Beleites, C. та ін. : Валідація моделей м'якої класифікації з використанням парціальних членів класу: розширена концепція чутливості та Ко, застосована до оцінювання тканин астроцитоми, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (сторінка підсумків, що містить посилання на переддрук)
Моєю кінцевою метою є можливість впевнено сказати, що один метод машинного навчання перевершує інший для певного набору даних.
Використовуйте парний тест, щоб оцінити це. Для порівняння пропорцій погляньте на тест МакНемара.
На відповідь на це вплине вибір метрики. Оскільки заходи помилок типу регресії не мають кроку «загартовування» скорочення рішень з порогом, вони часто мають меншу дисперсію, ніж їхні класифікаційні аналоги. Такі метрики, як точність, яка в основному є пропорційними, потребують величезної кількості тестових випадків, щоб встановити перевагу одного класифікатора над іншим.
Фліс: "Статистичні методи для ставок і пропорцій" наводять приклади (та таблиці) для непарного порівняння пропорцій. Щоб скласти уявлення про те, що я маю на увазі під "величезними розмірами вибірки", погляньте на зображення у моїй відповіді на це інше питання . Для парних тестів, таких як МакНемар, потрібні менше тестових випадків, але IIRC все ще в кращому випадку становить половину (?) Зразка, необхідного для непарного тесту.
Щоб охарактеризувати продуктивність класифікатора (загартований), вам зазвичай потрібна робоча крива щонайменше двох значень, таких як ROC (чутливість проти специфічності) тощо.
Я рідко використовую загальну точність або AUC, оскільки мої програми зазвичай мають обмеження, наприклад, що чутливість важливіша, ніж специфічність, або певні межі цих заходів повинні бути дотримані. Якщо ви користуєтесь сумарними характеристиками "єдиного числа", переконайтеся, що робоча точка моделей, на які ви дивитесь, насправді знаходиться в розумному діапазоні.
Для точності та інших заходів щодо ефективності, які підсумовують ефективність для декількох класів відповідно до посилальних міток, переконайтеся, що ви враховуєте відносну частоту класів, з якими ви будете стикатися в додатку - що не обов’язково таке, як у вашому дані про навчання або тести.
Провост, Ф. та ін. : Справа проти оцінки точності порівняння індукційних алгоритмів у матеріалах п’ятнадцятої міжнародної конференції з машинного навчання, 1998
редагувати: порівняння декількох класифікаторів
Я деякий час думав над цією проблемою, але ще не прийшов до рішення (а також не зустрічав нікого, хто мав рішення).
Ось що у мене поки що:
Проблема полягає в тому, що ви дуже швидко впадаєте у величезну ситуацію з кількома порівняннями.
Однак ви можете сказати, що для моїх програм, які я маю під рукою, багаторазове порівняння насправді не погіршує ситуацію, тому що я рідко маю на увазі тестові випадки, щоб дозволити навіть одне порівняння ...
Я думаю, що налаштування гіперпараметрів моделі - це спеціалізована версія загальної проблеми порівняння моделі, яку може бути простіше вирішити для початку. Однак ходять чутки, що якість моделей багато в чому залежить від досвідченості того, хто їх будує, можливо, навіть більше, ніж від вибору типу моделі
Наразі я вирішив, що «оптимізація - корінь усього зла», і натомість скористався зовсім іншим підходом:
я вирішую якнайбільше, знаючи експертні знання про проблему. Це фактично дозволяє трохи звузити речі, тому я часто можу уникати порівняння моделей. Коли мені доводиться порівнювати моделі, я намагаюся бути дуже відкритим і чітким, що нагадує людям про невизначеність оцінки продуктивності та про те, що особливо багаторазове порівняння моделей є AFAIK як і раніше невирішеною проблемою.
Редагування 2: парні тести
н12( н2- п )тесту стосується лише того, що, оскільки всі моделі тестуються з абсолютно однаковими тестовими кейсами, ви можете розділити випадки на "легкі" та "складні" випадки, з одного боку, для яких всі моделі доходять правильно (або неправильно) передбачення. Вони не допомагають розрізнити серед моделей. З іншого боку, є "цікаві" випадки, які деякі прогнозують правильно, а не інші моделі. Тільки ці "цікаві" випадки потрібно враховувати для судження переваги, ні "легкі", ні "важкі" випадки в цьому не допомагають. (Ось як я розумію ідею тесту МакНемара).
нн