Як працює перехресне підтвердження, що відпускається? Як вибрати остаточну модель з різних моделей?


25

У мене є деякі дані, і я хочу створити модель (скажімо, модель лінійної регресії) з цих даних. На наступному кроці я хочу застосувати перехресну перевірку Leave-One-Out (LOOCV) на моделі, щоб побачити, наскільки вона хороша.

Якщо я правильно зрозумів LOOCV, будую нову модель для кожного мого зразка (тестовий набір), використовуючи кожен зразок, крім цього зразка (навчальний набір). Потім я використовую модель для передбачення тестового набору та обчислення помилок .(передбачив-фактичний)

На наступному етапі я агрегую всі помилки, згенеровані за допомогою обраної функції, наприклад середню помилку в квадраті. Я можу використовувати ці значення, щоб судити про якість (або корисність придатності) моделі.

Питання: Для якої моделі застосовуються ці значення якості, і яку модель слід вибрати, якщо я вважаю, що показники, згенеровані з LOOCV, підходять для мого випадку? LOOCV розглядав різних моделей (де - розмір вибірки); яку з них обрати модель?нн

  • Це модель, яка використовує всі зразки? Ця модель ніколи не була розрахована під час процесу LOOCV!
  • Це модель, яка має найменшу помилку?

Відповіді:


24

Найкраще мислити перехресну валідацію як спосіб оцінки продуктивності узагальнення моделей, сформованих певною процедурою, а не самої моделі. Перехресна перевірка "випуск-один-один" - це, по суті, оцінка ефективності узагальнення моделі, підготовленої на вибірках даних, що, як правило, є дещо песимістичною оцінкою продуктивності моделі, підготовленої на яти вибірках.н-1н

Замість того, щоб вибирати одну модель, все, що потрібно зробити, - це пристосувати модель до всіх даних і використовувати LOO-CV для надання дещо консервативної оцінки продуктивності цієї моделі.

Однак зауважте, що LOOCV має велику дисперсію (значення, яке ви отримаєте, сильно відрізняється, якщо ви використовуєте інший випадковий зразок даних), що часто робить його поганим вибором оцінювача для оцінки продуктивності, навіть якщо він є приблизно неупередженим. Я використовую його весь час для вибору моделі, але насправді лише тому, що це дешево (майже безкоштовно для моделей ядра, над якими я працюю).


Дякую за відповідь. Чи не пропозиція "використовувати LOO-CV, щоб дати трохи консервативну оцінку продуктивності цієї моделі". помиляється загальна справа? Модель може погіршитися, якщо я додам ще одну точку, у такому випадку LOO-CV може бути an. оптимістична оцінка
theomega

1
Чим більше даних ви будете використовувати для побудови моделі, тим краще, тим краще буде модель. Хоча додатковий момент може зробити модель трохи гіршою, вона швидше зробить модель трохи кращою. Тож у цілому loocv має невеликий песимістичний ухил, але це лише дуже незначно, дисперсія оцінки LOOCV зазвичай набагато більшу увагу.
Дікран Марсупіал

Що слід використовувати для оцінки ефективності тоді? (Якщо припустити, що збір даних є дорогим, тому ви хочете використовувати всі наявні дані, щоб відповідати моделі).
Sideshow Bob

Напевно, завантажувач. Більшість моделей, які я використовую, мають параметри регуляризації тощо, які потрібно настроїти, тому я часто використовую LOOCV для налаштування моделей і завантажувального пристрою або повторного утримування для оцінки продуктивності.
Дікран Марсупіал

@DikranMarsupial Ви впевнені в тому, що резюме Leave-One-Out забезпечує песимістичну упередженість? Наскільки я знаю, зазвичай вона забезпечує нижчу оцінку помилок, ніж, наприклад, K-Fold. Також, чи не має LOOCV відхилення? Ви можете зробити LOOCV лише один раз, тоді "у вас закінчиться зразок". Єдиною варіантом, яку я можу придумати, є модель, створена алгоритмами тренувань, які використовуються для підгонки до моделі. Але це має бути дисперсія, пов'язана з дисперсією оптимальних параметрів, а не з самою помилкою моделі. Дякую.
D1X
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.