Коли насправді потрібна вкладена перехресна перевірка і може змінити практику?


36

При використанні перехресної перевірки для вибору моделі (наприклад, настройка гіперпараметрів) та для оцінки продуктивності найкращої моделі слід використовувати вкладену перехресну перевірку . Зовнішня петля - це оцінювати продуктивність моделі, а внутрішня - вибрати найкращу модель; модель вибирається на кожному зовнішньому тренувальному наборі (використовуючи внутрішній цикл резюме) і його продуктивність вимірюється на відповідному наборі зовнішнього тестування.

Це обговорювалося та пояснювалось у багатьох потоках (наприклад, наприклад, тут Навчання з повним набором даних після перехресної перевірки? Див. Відповідь від @DikranMarsupial) і мені цілком зрозуміло. Виконання лише простої (не вкладеної) перехресної перевірки як для вибору моделі, так і для оцінки ефективності може дати позитивно упереджену оцінку ефективності. @DikranMarsupial має статтю 2010 року саме на цю тему ( Про надмірну підбірку у виборі моделі та наступні зміщення вибору при оцінці продуктивності ), при цьому підрозділ 4.3 називається Чи надмірна відповідність вибору моделі справді справжня проблема в практиці? - і з документа видно, що відповідь - так.

Враховуючи це, я зараз працюю з багатоваріантною множинною регресією хребта, і я не бачу різниці між простим і вкладеним резюме, і тому вкладене резюме в цьому конкретному випадку виглядає як непотрібне обчислювальне навантаження. Моє запитання: за яких умов простий резюме призведе до помітного зміщення, якого можна уникнути вкладеним CV? Коли на практиці має значення вкладене резюме, а коли воно не так важливе? Чи є якісь правила?

Ось ілюстрація з використанням мого фактичного набору даних. Горизонтальна вісь є для регресії хребта. Вертикальна вісь - це помилка перехресної перевірки. Синя лінія відповідає простому (не вкладеному) перехресній валідації з 50 випадковими розбиттями тренувань / тестів 90:10. Червона лінія відповідає вкладеній перехресній валідації з 50 випадковими тренувальними / тестовими розщепленнями 90:10, де вибирається із внутрішнім циклом перехресної перевірки (також 50 випадкових розбиття 90:10). Рядки - це значення, що перевищує 50 випадкових розщеплень, відтінки показують стандартне відхилення .λжурнал(λ)λ±1

Проста проти вкладеної перехресної перевірки

Червона лінія є плоскою, оскільки у внутрішньому циклі вибирається , а продуктивність зовнішньої петлі не вимірюється у всьому діапазоні 's. Якби проста перехресна перевірка була упередженою, то мінімум синьої кривої був би нижче червоної лінії. Але це не так.λλ

Оновлення

Це на самому ділі це так :-) Це просто , що різниця дуже мала. Ось масштаб:

Проста проти вкладеної перехресної перевірки, збільшення масштабу

Однією з потенційно оманливих речей є те, що мої смужки помилок (відтінки) є величезними, але вкладені та прості резюме можуть бути (і були) проводитися з однаковими навчальними / тестовими розбиттями. Тож порівняння між ними парне , про що натякав @Dikran у коментарях. Отже, давайте розберемось між вкладеною помилкою CV та простою помилкою CV (для що відповідає мінімуму на моїй синій кривій); знову ж таки, при кожній складці ці дві помилки обчислюються на одному тестовому наборі. Розподіляючи цю різницю на тренувань / випробувань, я отримую наступне:50λ=0,00250

Проста проти вкладеної перехресної перевірки, відмінності

Нулі відповідають розбиттям, де внутрішня петля CV також дала (це трапляється майже в половину разів). В середньому різниця має тенденцію бути позитивною, тобто вкладений резюме має трохи більшу помилку. Іншими словами, просте резюме демонструє незначну, але оптимістичну упередженість.λ=0,002

(Я провів всю процедуру пару разів, і це відбувається щоразу.)

Моє запитання полягає в тому, за яких умов ми можемо очікувати, що цей ухил буде незначним, а за яких - не?


Я не надто впевнений, що я розумію схему, чи могли б ви створити графік розкиду, що показує оцінну помилку від вкладеної та невкладеної перехресної перевірки на кожній осі (припускаючи, що 50 тестів тренувальних тренувань були однакові щоразу)? Наскільки великий використовується набір даних?
Дікран Марсупіал

1
Я створив графік розсіювання, але всі точки дуже близькі до діагоналі, і важко відрізнити від нього будь-яке відхилення. Тому замість цього я відняв просту помилку CV (для оптимальної лямбда) від вкладеної помилки резюме та побудував це за всіма тренувальними тестами. Здається, є дуже невеликий, але помітний ухил! Я зробив оновлення. Повідомте мене, якщо цифри (або мої пояснення) заплутані, я хотів би, щоб ця публікація була зрозумілою.
амеба повідомляє Відновити Моніку

У першому пункті у вас є обрана модель на кожному навчальному наборі ; вона повинна бути , можливо , внутрішньо замість цього?
Річард Харді

@RichardHardy Ні. Але я можу бачити, що це речення не сформульовано дуже чітко. Модель "підбирається" на кожному навчальному наборі. Різні моделі (наприклад, моделі з різними лямбдахами) вміщуються на кожному внутрішньо-тренувальному наборі, тестуються на внутрішніх тестових наборах, а потім вибирається одна з моделей , виходячи з усього набору для зовнішнього тренування. Потім його ефективність оцінюється за допомогою набору для зовнішнього тестування. Чи має сенс?
амеба каже, що поверніть Моніку

Відповіді:


13

Я б припустив, що зміщення залежить від дисперсії критерію вибору моделі, чим вище дисперсія, тим більша ухил може бути. Дисперсія критерію вибору моделі має два основні джерела - розмір набору даних, за яким він оцінюється (тому, якщо у вас є невеликий набір даних, більший ухил, швидше за все,) та стабільність статистичної моделі (якщо параметри моделі добре оцінюються за наявними даними навчальних даних, є менша гнучкість, щоб модель перевиконала критерій вибору моделі, налаштовуючи гіперпараметри). Іншим відповідним фактором є кількість модельних виборів та / або гіпер-параметри, які слід настроїти.

У своєму дослідженні я розглядаю потужні нелінійні моделі та відносно невеликі набори даних (зазвичай використовуються в дослідженнях машинного навчання), і обидва ці фактори означають, що вкладена перехресна перевірка абсолютно не потрібна. Якщо ви збільшите кількість параметрів (можливо, ядро ​​має параметр масштабування для кожного атрибуту), перевищення розміру може бути "катастрофічним". Якщо ви використовуєте лінійні моделі із лише одним параметром регуляризації та відносно великою кількістю випадків (щодо кількості параметрів), то різниця, ймовірно, буде значно меншою.

Додам, що я б рекомендував завжди використовувати вкладені перехресні перевірки, за умови, що це обчислювально можливо, оскільки це виключає можливе джерело зміщення, щоб нам (і рецензентам; o) не потрібно хвилюватися про те, чи є це незначний чи ні.


2
Якщо ви використовуєте всі дані, то хіба це не ефективно побудова помилки навчального набору? Досить часто я використовую класифікаційні моделі, де найкращі моделі мають нульову помилку навчального набору, але ненульову помилку узагальнення, навіть якщо параметр регуляризації ретельно обраний.
Дікран Марсупіал

1
Кілька тисяч моделей тренувань чи менше. Яку модель ви використовуєте? Зі збільшенням набору даних статистичні проблеми зменшуються, а обчислювальні проблеми збільшуються, як правило. Перехресна перевірка k-кратна лише в k разів повільніше, ніж підходить до базової моделі (включаючи настройку гіперпараметрів), тому вона рідко переходить від можливої ​​до нездійсненної. Перехресна вальдація k-складів також легко паралелізується, що я і роблю.
Дікран Марсупіал

1
Це просто дає об'єктивну оцінку ефективності. По суті вкладене CV оцінює ефективність методу підгонки моделі, включаючи вибір моделі за допомогою перехресної перевірки. Щоб отримати операційну модель, ми зазвичай просто повторюємо метод, використовуючи весь набір даних, який дає ті ж варіанти моделі, що і «плоскі» крос-валідаційні процедури.
Дікран Марсупіал

1
Я також натрапив на питання про вкладене резюме. Використання об'єктивного вкладеного резюме передбачає встановлення моделей з меншими даними. Для 10-кратного резюме це як 81% у вкладеному резюме, а 90% - у вкладеному резюме. Також тестовий склад стає 9% проти 10% у не вкладених. Чи породжує це додаткова дисперсія в оцінці моделі? Особливо для невеликих наборів даних, як-от 350 зразків у цій публікації. Це "недолік" використання вкладеного резюме? Якщо так, то як нам вирішити, чи використовувати вкладене резюме залежно від розміру набору даних? Дуже цінуємо думку експерта, як ви з цього питання. Чи є якийсь документ, пов'язаний з цим питанням? @Dikran Marsupial
zesla

2
@zesla Так, це дійсно так, що для внутрішньої перехресної перевірки є менше даних, що підвищить її дисперсію, проте остаточна модель будується з використанням всього набору даних (включаючи оцінку гіперпараметрів). Завжди існує компроміс між ухилом і дисперсією в оцінці ефективності. Найбільш важливо використовувати вкладені перехресні перевірки, якщо набір даних невеликий, оскільки надмірне вміщення у виборі моделі та зміщення є більшою проблемою. У практичних програмах, де мало гіперпараметрів, різниця може мати мало практичне значення arxiv.org/abs/1809.09446 .
Дікран Марсупіал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.