Ви здивуєтеся, дізнавшись, що 80/20 - це досить часто зустрічається співвідношення, яке часто називають принципом Парето . Зазвичай це безпечна ставка, якщо ви використовуєте це співвідношення.
Однак, залежно від методики навчання / валідації, яку ви використовуєте, співвідношення може змінюватися. Наприклад: якщо ви використовуєте 10-кратну перехресну перевірку, ви отримаєте набір валідації 10% у кожну складку.
Було проведено кілька досліджень щодо того, яке правильне співвідношення між навчальним набором та валідаційним набором :
Частка шаблонів, відведених для набору валідації, повинна бути обернено пропорційною квадратному кореню кількості вільних регульованих параметрів.
У своєму висновку вони визначають формулу:
Набір валідації (v) до співвідношення розмірів навчального набору (t), v / t, масштабів, таких як ln (N / h-max), де N - кількість сімей визнаючих, а h-max - найбільша складність цих сімей.
Що вони означають за складністю, це:
Кожна сім'я впізнавальних приладів характеризується своєю складністю, яка може або не може бути пов'язана з розмірністю ВК , довжиною опису, кількістю регульованих параметрів або іншими заходами складності.
Беручи перше правило (тобто набір перевірки має бути обернено пропорційним квадратному кореню кількості вільних регульованих параметрів), можна зробити висновок, що якщо у вас є 32 регульовані параметри, квадратний корінь 32 дорівнює ~ 5,65, дріб повинен бути 1 / 5,65 або 0,177 (об / т). Приблизно 17,7% мають бути зарезервовані для валідації та 82,3% для навчання.