У більшості ситуацій зазвичай більше даних . Переоформлення - це, по суті, вивчення хибних кореляцій, які виникають у ваших навчальних даних, але не в реальному світі. Наприклад, якщо ви вважали лише моїх колег, ви можете навчитися пов'язувати "на ім'я Метта" з "має бороду". Це 100% дійсне ( н = 4 , навіть!), Але це, очевидно, не вірно. Збільшення розміру вашого набору даних (наприклад, для всієї будівлі чи міста) повинно зменшити ці помилкові кореляції та підвищити ефективність вашого учня.
Однак, одна ситуація, коли більше даних не допомагає --- і може навіть нашкодити ---, якщо ваші додаткові дані про навчання є галасливими або не відповідають тому, що ви намагаєтесь передбачити. Я колись робив експеримент, коли я підключав різні мовні моделі [*] до системи бронювання ресторанів, активованої голосом. Я варіював кількість навчальних даних, а також їх актуальність: на одному крайньому рівні у мене була невелика, ретельно підготовлена колекція таблиць бронювання людей, що ідеально підходить для моєї програми. З іншого боку, у мене була модель, оцінена з величезної колекції класичної літератури, більш точної мовної моделі, але набагато гірша відповідність додатку. На мій подив, мала, але відповідна модель значно перевершила велику, але менш релевантну модель.
Дивовижна ситуація, яка називається
подвійним спуском , також виникає, коли розмір навчального набору близький до кількості параметрів моделі. У цих випадках ризик тесту спочатку зменшується, коли розмір навчального набору збільшується, тимчасово
збільшується, коли додаються трохи більше даних про тренування, і нарешті знову починає зменшуватися, коли навчальний набір продовжує зростати. Про це явище повідомлялося 25 років у літературі з нейронних мереж (див. Opper, 1995), але зустрічається і в сучасних мережах (
Advani and Saxe, 2017 ). Цікаво, що це трапляється навіть для лінійної регресії, хоч і однієї з
підходів SGD (
Nakkiran, 2019)). Це явище ще не до кінця вивчене і в значній мірі представляє теоретичний інтерес: я, звичайно, не використовував би це як причину, щоб не збирати більше даних (хоча я міг би поспішати з розміром навчального набору, якщо n == p та продуктивність були несподівано поганими ).
[*] Мовна модель - це лише ймовірність побачити задану послідовність слів, наприклад,
П( шн= 'швидкий', шn + 1= 'коричневий', шn + 2= 'лисиця' ) . Вони життєво важливі для побудови на півдорозі гідного розпізнавання мови / характеру.