Чому дослідники використовують 10-кратну перехресну перевірку замість тестування на наборі перевірки?


23

Я прочитав багато наукових праць про класифікацію настроїв та пов'язані з ними теми.

Більшість із них використовують 10-кратну перехресну перевірку для підготовки та тестування класифікаторів. Це означає, що не проводиться окреме тестування / перевірка. Чому так?

Які переваги / недоліки такого підходу, особливо для тих, хто проводить дослідження?


3
Ви впевнені, що не проводилося окреме тестування?
Дуглас Заре

Відповіді:


17

Це не проблема, якщо резюме вкладено , тобто всі оптимізації, вибір функцій та вибір моделі, незалежно від того, чи вони вони самі використовують, чи ні, містяться в одному великому резюме.

Як це порівнюється з додатковим набором перевірки? Хоча набір перевірки зазвичай є лише більш-менш випадково вибраною частиною цілих даних, це просто еквівалент одній ітерації резюме. З цією метою це насправді гірший метод, оскільки його можна легко змінити (сподіваємось) на щастя / невдало вибраний або вишневий набір перевірки.

Єдиним винятком з цього є часові ряди та інші дані, де має значення порядок об’єктів; але вони потребують спеціального лікування в будь-якому випадку.


16

Основна причина полягає в тому, що оцінювач перехресної перевірки k-кратного значення має меншу дисперсію, ніж один оцінювач набору витриманих, що може бути дуже важливим, якщо кількість доступних даних обмежена. Якщо у вас є єдиний набір затримок, де 90% даних використовується для навчання і 10% використовується для тестування, тестовий набір дуже малий, тому буде багато варіацій в оцінці ефективності для різних зразків даних, або для різних розділів даних для формування навчальних і тестових наборів. k-кратна валідація зменшує цю дисперсію шляхом усереднення по k різних розділів, тому оцінка продуктивності менш чутлива до розподілу даних. Ви можете піти далі за допомогою повторної перехресної перевірки k-кратного перекладу, де перехресна перевірка виконується за допомогою різних розділів даних для формування k підмножин,

Однак зауважте, що всі етапи процедури підгонки моделі (вибір моделі, вибір функції тощо) повинні бути виконані незалежно у кожному складі процедури перехресної перевірки, або отримана оцінка ефективності буде оптимістично упереджена.


9

[ВИДАЛЕНО у світлі коментаря]

Я думаю, що є проблема, якщо ви використовуєте результати CV для вибору серед кількох моделей.

Резюме дозволяє використовувати весь набір даних для підготовки та тестування однієї моделі / методу, маючи при цьому можливість мати розумне уявлення про те, наскільки добре вона буде узагальнена. Але якщо ви порівнюєте кілька моделей, мій інстинкт полягає в тому, що порівняння моделей використовує додатковий рівень ізоляції поїзних випробувань, який дає вам CV, тож кінцевий результат не буде розумною оцінкою точності обраної моделі.

Тож я здогадуюсь, що якщо створити кілька моделей і вибрати одну на основі її резюме, ви будете надто оптимістичними щодо того, що знайшли. Ще один набір перевірки знадобиться, щоб побачити, наскільки добре перемагає переможець.


Дякую. Це вірно. Але моє запитання стосувалося особливо того, чому у пошукових роботах відсутні відсутність остаточної перевірки? Чи є належна причина? Це збирається менше даних або через те, що резюме добре працює, і окрема перевірка не потрібна?
user18075

5
Y

7
  • На мій досвід, головна причина - це те, що у вас недостатньо зразків.
    У моїй галузі (класифікація біологічних / медичних проб) іноді тестовий набір зберігається окремо, але часто він включає лише декілька випадків. У такому випадку довірчі інтервали зазвичай занадто широкі, щоб бути корисними.

  • Ще одна перевага повторної / повторної перехресної валідації або перевірки поза завантаженням полягає в тому, що ви будуєте купу "сурогатних" моделей. Вони вважаються рівними. Якщо їх немає, режими нестабільні. Ви можете фактично виміряти цю нестабільність (стосовно обміну кількома навчальними випадками), порівнюючи або самі сурогатні моделі, або прогнози, які різні сурогатні моделі роблять для одного випадку.

  • У цьому документі Esbensen & Geladi дається приємне обговорення деяких обмежень перехресної перевірки.
    Ви можете піклуватися про більшість із них, але важливим моментом, який неможливо вирішити шляхом перевірки перекомпонування, є дрейф, який пов'язаний з точкою mbq:

    Єдиним винятком з цього є часові ряди та інші дані, де має значення порядок об’єктів

    Дрейф означає, що, наприклад, реакція приладу / справжня калібрування з часом повільно змінюються. Тож помилка узагальнення для невідомих випадків може бути не такою ж, як для невідомих майбутніх випадків. Ви отримуєте інструкції на кшталт "повторне калібрування щодня / тиждень / ...", якщо під час перевірки виявите дрейф, але для цього потрібні тестові набори, систематично отримані пізніше, ніж дані тренувань.
    (Ви можете виконати "спеціальні" розбивки, які враховують час придбання, якщо ваш експеримент планується акронізовано, але зазвичай це не охопить стільки часу, скільки ви хочете перевірити на виявлення дрейфу)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.