Напевно, найважливіше - це вибірки ваших даних добре розповсюджені, адже скільки б ви не мали даних, більше даних завжди було б краще. Зрештою, якщо ви спробуєте навчитися розрізняти зображення котів та собак, ви не можете очікувати, що ваша модель буде добре працювати, якщо ви лише годуєте її зображеннями котів.
Як запропоновано у відповіді Кевіна Л , має сенс розглянути різницю між помилкою навчання та помилкою тестування. Якщо ваші дані тестування не залежать від ваших даних про навчання, це вказує на те, наскільки добре ваша модель узагальнюється до даних, які недоступні. Щось я хотів би додати до цього, це той факт, що велика різниця між помилкою навчання та тестування лише говорить вам про те, що ваша модель не узагальнена, тобто ви надмірно підходите до даних тренувань. Більше даних, ймовірно, допоможе, оскільки тепер мережі також потрібно моделювати додаткові точки даних, отже, більше не можна переоцінювати це. Однак може бути доцільніше змінити свою модель таким чином, щоб вона стала кращою. Цей розділ із чудової книги пояснює, які типи регуляризації існують і як їх можна застосовувати в мережах для кращого узагальнення.
Якщо ви шукали більш кількісну міру, я нещодавно знайшов це питання на кворі. Йдеться про автокодер, але, мабуть, він повинен бути застосовний і до вашого прикладу. Я не маю поняття, чи правильно це (будь ласка, повідомте мене), але я можу пояснити, що, наприклад, для MNIST, можна стверджувати, що ви намагаєтеся зменшити зображення максимум 28 * 28 * 8 * 10 000 = 62 720 000 біт ентропії до десяти класів в гарячому кодуванні з 10 * 10 * 10 000 = 1 000 000 біт ентропії. Оскільки нас цікавлять лише 1 000 000 біт ентропії на виході, ми можемо сказати, що з 1 000 000 параметрів кожен параметр являє собою один біт, який становить 1е-4 біт на зразок. Це означає, що вам знадобиться більше даних. Або у вас занадто багато параметрів, тому що, наприклад, зі 100 параметрами у вас є 10 000 біт на параметр і, отже, 1 біт на зразок. Однак,