Який вплив має підвищення навчальних даних на загальну точність системи?


16

Чи може хтось підсумувати для мене можливі приклади, при яких ситуаціях збільшення даних про тренінг покращує загальну систему? Коли ми виявимо, що додавання більшої кількості даних про навчання може призвести до надмірних даних і не дати належної точності даних тесту?

Це дуже неспецифічне запитання, але якщо ви хочете відповісти на нього конкретно в конкретній ситуації, будь ласка, зробіть це.


просто цікаво - це питання про те, чи краще 50-50 розбиття на поїзд / тест, ніж скажімо 75-25?
ймовірністьілогічного

Відповіді:


22

У більшості ситуацій зазвичай більше даних . Переоформлення - це, по суті, вивчення хибних кореляцій, які виникають у ваших навчальних даних, але не в реальному світі. Наприклад, якщо ви вважали лише моїх колег, ви можете навчитися пов'язувати "на ім'я Метта" з "має бороду". Це 100% дійсне ( н=4 , навіть!), Але це, очевидно, не вірно. Збільшення розміру вашого набору даних (наприклад, для всієї будівлі чи міста) повинно зменшити ці помилкові кореляції та підвищити ефективність вашого учня.

Однак, одна ситуація, коли більше даних не допомагає --- і може навіть нашкодити ---, якщо ваші додаткові дані про навчання є галасливими або не відповідають тому, що ви намагаєтесь передбачити. Я колись робив експеримент, коли я підключав різні мовні моделі [*] до системи бронювання ресторанів, активованої голосом. Я варіював кількість навчальних даних, а також їх актуальність: на одному крайньому рівні у мене була невелика, ретельно підготовлена ​​колекція таблиць бронювання людей, що ідеально підходить для моєї програми. З іншого боку, у мене була модель, оцінена з величезної колекції класичної літератури, більш точної мовної моделі, але набагато гірша відповідність додатку. На мій подив, мала, але відповідна модель значно перевершила велику, але менш релевантну модель.


Дивовижна ситуація, яка називається подвійним спуском , також виникає, коли розмір навчального набору близький до кількості параметрів моделі. У цих випадках ризик тесту спочатку зменшується, коли розмір навчального набору збільшується, тимчасово збільшується, коли додаються трохи більше даних про тренування, і нарешті знову починає зменшуватися, коли навчальний набір продовжує зростати. Про це явище повідомлялося 25 років у літературі з нейронних мереж (див. Opper, 1995), але зустрічається і в сучасних мережах ( Advani and Saxe, 2017 ). Цікаво, що це трапляється навіть для лінійної регресії, хоч і однієї з підходів SGD ( Nakkiran, 2019)). Це явище ще не до кінця вивчене і в значній мірі представляє теоретичний інтерес: я, звичайно, не використовував би це як причину, щоб не збирати більше даних (хоча я міг би поспішати з розміром навчального набору, якщо n == p та продуктивність були несподівано поганими ).


[*] Мовна модель - це лише ймовірність побачити задану послідовність слів, наприклад, П(шн="швидкий", шн+1='коричневий', шн+2='лисиця') . Вони життєво важливі для побудови на півдорозі гідного розпізнавання мови / характеру.



12

Одне зауваження: додаючи більше даних (рядків чи прикладів, а не стовпців чи функцій), ваші шанси перевиконати зменшаться, а не збільшуються.

Підсумок двох абзаців виглядає так:

  • Додаючи більше прикладів, додає різноманіття. Це зменшує помилку узагальнення, оскільки ваша модель стає більш загальною завдяки навчанню на більшій кількості прикладів.
  • Додавання більшої кількості вхідних функцій або стовпців (до фіксованої кількості прикладів) може збільшити розміщення, оскільки більше можливостей може бути або нерелевантними, або зайвими, і є більше можливостей ускладнити модель, щоб відповідати прикладам.

Існує кілька спрощених критеріїв для порівняння якості моделей. Погляньте, наприклад, на AIC або BIC .

Вони обидва показують, що додавання більшої кількості даних завжди покращує моделі, в той час як складність параметрів перевищує оптимальну, знижує якість моделі.


1

Збільшення даних про тренінг завжди додає інформацію та повинно покращити форму. Складність виникає, якщо потім оцінювати продуктивність класифікатора лише на даних тренувань, які використовувались для пристосування. Це дає оптимістично упереджені оцінки і є причиною того, що замість цього використовується взаємна перехресна перевірка або завантажувальна програма.


1

В ідеалі, коли у вас буде більше прикладів навчання, у вас буде менша помилка тесту (дисперсія моделі зменшується, це означає, що ми менше переозброюємо), але теоретично більше даних не завжди означає, що ви будете мати більш точну модель, оскільки моделі з великим ухилом не виграє більше прикладів навчання .

Дивіться тут: У машинному навчанні, що краще: більше даних або кращі алгоритми

Висока дисперсія - модель, яка добре відображає тренування, але ризикує перетворитись на шумні або нерепрезентативні дані тренувань.

Висока упередженість - простіша модель, яка не має тенденції до надмірного навантаження, але може недооцінювати дані тренувань, не маючи на увазі важливих закономірностей.


-1

Спектральний аналіз допоможе в аналізі різноманітності вибірки, насправді помилкову інформацію буде вивчено при моделюванні, якщо не додано "реальних зразків", які зазвичай називають надмірними. Зазвичай, якщо надана інформація за зразком менше, рекомендується надавати більш реальну вибірку, щоб забезпечити корисну інформацію, яка може бути використана при тестуванні. Удачі!


3
Важко зрозуміти цю відповідь. Це, можливо, машино перекладено з якоїсь іншої мови? Чи може бути якийсь спосіб ви могли переглянути його та відредагувати, щоб він передав ідеї, якими ви хочете поділитися з нами?
whuber

Я не розумію, яка ваша відповідь.
користувач162580

3
Схоже, у нас є мовна проблема: слова, які ви розмістили, не мають сенсу в англійській мові. Чи можете ви їх змінити, щоб вони мали сенс?
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.