Це дійсно залежить від кількості ваших даних, конкретної вартості методів та того, як саме ви хочете, щоб був ваш результат.
Деякі приклади:
Якщо у вас мало даних, ви, мабуть, хочете скористатися перехресною валідацією (k-fold, left-one-out тощо). Ваша модель, ймовірно, не займе багато ресурсів для підготовки та тестування. Це хороші способи отримати максимум своїх даних
У вас дуже багато даних: ви, ймовірно, хочете взяти досить великий тестовий набір, гарантуючи, що буде мало можливостей, що якісь дивні зразки дадуть великі відмінності вашим результатам. Скільки даних слід взяти? Це повністю залежить від ваших даних та моделі. Наприклад, для розпізнавання мовлення, якщо ви забираєте занадто багато даних (скажімо, 3000 речень), ваші експерименти потребуватимуть днів, оскільки фактор у реальному часі становить 7-10. Якщо ви візьмете занадто мало, це занадто сильно залежить від вибраних динаміків (які у навчальному наборі заборонено).
Пам'ятайте також, що у багатьох випадках добре мати також і перевірку / розробку!