Чи встановлено перехресне підтвердження належною заміною для перевірки?


27

У класифікації тексту у мене є навчальний набір з приблизно 800 зразками та тестовий набір з приблизно 150 зразками. Тестовий набір ніколи не використовувався і чекав його використання до кінця.

Я використовую цілий 800 навчальний набір зразків, з 10-кратним перехресним підтвердженням під час настройки та налаштування класифікаторів та функцій. Це означає, що я не маю окремого набору перевірок, але кожен з них закінчується в 10 разів, набір перевірки вибирається автоматично.

Після того, як я буду задоволений усім і захочу вступити на заключний етап оцінювання, я буду тренувати класифікаторів на цілих 800 зразків. І тест на 150 зразків тестового набору.

Чи правильно я розумію таке використання перехресної перевірки в класифікації тексту? Чи діє ця практика?

Ще одне питання перехресної перевірки wrt:

замість 10 разів я також спробував залишити його як загальний показник продуктивності. Оскільки для того, щоб залишити один, неможливо мати інформацію про f1 / точність / згадування, мені цікаво, яка взаємозв'язок між точністю відпускного виходу та метрикою у 10 разів?

Будь-яка інформація буде дуже вдячна.


Редагувати:

Це досить приємне вступ до перехресної перевірки. Він також стосується інших наукових робіт.


3
Оцінювачі, що виходять з одного виходу, є неупередженими, тоді як 10-кратна перехресна перевірка, як правило, надасть вам упередженість (до менших помилок). Однак неупередженість виходить ціною високої дисперсії.
буяння

@Simon, я думаю, це залежить від складності проблеми. Чи не так?
Біостат

@blubb: LOO в певних ситуаціях може мати великий песимістичний ухил. Варіантність LOO та разовий цикл 10-кратного резюме зазвичай дуже схожі. Оптимістичний зміщення (занадто низькі оцінки помилок) тут випливає не з вибору перекомпонування, а від того, що перевірка крос-коду використовується вже для оптимізації, керованої даними. Після цього потрібна ще одна незалежна перевірка. Це може бути і "зовнішній" цикл перехресної перевірки (без оптимістичного ухилу!)
cbeleites підтримує Моніку

Відповіді:


15

Ви дійсно правильно описали спосіб роботи з перехресним перевіркою. Насправді вам пощастило встановити розумну валідацію в кінці, тому що часто, кросвалідизація використовується для оптимізації моделі, але ніякої "реальної" перевірки не робиться.

Як зазначив @Simon Stelling у своєму коментарі, перехресне підтвердження призведе до нижчих оціночних помилок (що має сенс, тому що ви постійно використовуєте дані), але, на щастя, це стосується всіх моделей, тому, катастрофіза заборони (тобто помилки лише зменшуються трохи для "поганої" моделі, а більше для "хорошої" моделі), вибір моделі, яка найкраще працює за перекресленим критерієм, як правило, також буде найкращою для "реальної".

Метод, який іноді використовується для дещо виправлення нижчих помилок, особливо якщо ви шукаєте парсимологічні моделі, полягає у виборі найменшої моделі / найпростішого методу, для якого помилка з перекреслюванням знаходиться в межах однієї SD від (перекресленого) оптимального. Що стосується самої перехресної перевірки, це є евристикою, тому її слід використовувати з обережністю (якщо це варіант: зробіть графік своїх помилок щодо параметрів настройки: це дасть вам уявлення про те, чи є у вас прийнятні результати)

З огляду на зменшення упередженості помилок, важливо не публікувати помилки або інший показник ефективності в результаті перехресної перевірки, не згадуючи, що вони походять від перехресної перевірки (хоча, правда кажучи: я бачив занадто багато публікацій, які не згадують про те, що Показник ефективності отриманий з перевірки продуктивності на початковому наборі даних --- тому згадування перехресної перевірки фактично робить ваші результати вартішими більше ) Для вас це не буде проблемою, оскільки у вас встановлено перевірку.

Остаточне попередження: якщо ваша модель відповідає результатам серед близьких конкурентів, то варто переглянути їх результати на валідації згодом, але не базувати на цьому свій остаточний вибір моделі: ви можете в кращому випадку використовувати це для заспокоєння вашої сумління, але ваша "остаточна" модель повинна бути обрана, перш ніж ви коли-небудь подивитесь набір перевірки.

Запишіть ваше друге запитання: Я вважаю, що Саймон дав ваші всі відповіді, які вам потрібні у своєму коментарі, але щоб доповнити картину: як часто, це компроміс із зміщенням ухилу, який вступає в гру. Якщо ви знаєте, що в середньому ви досягнете правильного результату (неупередженості), ціна зазвичай полягає в тому, що кожен ваш окремий розрахунок може лежати досить далеко від нього (велика дисперсія). За старих часів непредвзятості були не плюс плюс ультра, а в поточні дні часом приймається (невеликий) ухил (тож ви навіть не знаєте, що середній з ваших розрахунків приведе до правильного результату), якщо це приводить до меншої дисперсії. Досвід показує, що баланс є прийнятним при 10-кратній перехресній оцінці. Для вас зміщення буде лише проблемою для оптимізації вашої моделі, оскільки ви зможете оцінити критерій згодом (неупереджено) на наборі перевірки. Таким чином, мало причин не використовувати кросвалідизацію.


"але ваша" остаточна "модель повинна бути обрана, перш ніж ви коли-небудь подивитеся набір перевірки." Приємно.
Mooncrater
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.