Як вибрати розміри навчальних, перехресних перевірок та тестових наборів для малих даних про розмір вибірки?


10

Припустимо, у мене невеликий розмір вибірки, наприклад N = 100, і два класи. Як я повинен вибрати розміри навчальних, перехресних перевірок та тестових наборів для машинного навчання?

Я б інтуїтивно вибирав

  • Розмір тренувального набору - 50
  • Перехресне встановлення набору розміром 25 та
  • Розмір тесту - 25.

Але, мабуть, це має більш-менш сенс. Як мені реально вирішити ці цінності? Чи можу я спробувати різні варіанти (хоча, мабуть, це не так бажано ... збільшена можливість перенавчання)?

Що робити, якщо я мав більше двох класів?


2
100 для мене занадто малий. Я б вибрав стратегію відпустки як для перехресної перевірки, так і для тестової оцінки.
Спогад

Я не бачив жодної літератури з цього приводу (мінімальний розмір вибірки для перевірки). Не знаю чому. Здається, важливе питання.
Чарльз

Відповіді:


15

+1 виключно за порадою щодо оптимізації параметрів та складності моделі. але вся ця порада фантастична.
Чарльз

1

Зважаючи на те, що розмір вибірки невеликий, гарною практикою було б вийти з розділу перехресної перевірки та використовувати співвідношення 60 - 40 або 70 - 30.

Як ви бачите в розділі 2.8 Введення в Клементин та обмін даними, а також у Бібліотеці MSDN - Обмін даними - Навчання та тестування, співвідношення 70 - 30 є загальним. Відповідно до лекцій "Екскурсія" Ендрю Нґ, рекомендується співвідношення 60 - 20 - 20.

Сподіваюся, я був корисним. З повагою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.