Я деякий час працював над машинним навчанням та біоінформатикою, і сьогодні я мав розмову з колегою про основні загальні питання видобутку даних.
Мій колега (який є експертом з машинного навчання) сказав, що, на його думку, найважливішим практичним аспектом машинного навчання є те, як зрозуміти, чи ви зібрали достатньо даних для підготовки вашої моделі машинного навчання .
Це твердження мене здивувало, тому що я ніколи не надавав такої важливості цьому аспекту ...
Потім я шукав додаткову інформацію в Інтернеті, і, як правило, виявив цю публікацію на FastML.com звітності, що вам потрібно приблизно в 10 разів більше екземплярів даних, ніж є функції .
Два питання:
1 - Чи справді це питання особливо актуальне в машинному навчанні?
2 - Чи працює правило 10 разів? Чи є інші відповідні джерела для цієї теми?