Припустимо, у мене невеликий розмір вибірки, наприклад N = 100, і два класи. Як я повинен вибрати розміри навчальних, перехресних перевірок та тестових наборів для машинного навчання?
Я б інтуїтивно вибирав
- Розмір тренувального набору - 50
- Перехресне встановлення набору розміром 25 та
- Розмір тесту - 25.
Але, мабуть, це має більш-менш сенс. Як мені реально вирішити ці цінності? Чи можу я спробувати різні варіанти (хоча, мабуть, це не так бажано ... збільшена можливість перенавчання)?
Що робити, якщо я мав більше двох класів?