Відповіді:
Шум у даних до розумної кількості може допомогти мережі краще узагальнити. Іноді це має протилежний ефект. Частково це залежить від типу шуму ("справжній" проти штучного).
AI FAQ по ІНС дає огляд хороший. Витяг:
Шум у фактичних даних ніколи не є хорошою справою, оскільки він обмежує точність узагальнення, яку можна досягти, незалежно від того, наскільки обширний навчальний набір. З іншого боку, введення штучного шуму (тремтіння) у входи під час тренувань є одним із декількох способів покращення узагальнення для плавних функцій, коли у вас невеликий навчальний набір.
У деяких галузях, таких як комп’ютерний зір, звичайно збільшувати розмір навчального набору, копіюючи деякі зразки та додаючи деякі шуми чи інші перетворення.
Ми зазвичай думаємо про моделі машинного навчання як моделювання двох різних частин навчальних даних - основної узагальнюючої істини (сигнал) та випадковості, характерної для цього набору даних (шум).
Якщо встановити обидві ці деталі, підвищується точність набору тренувань, але встановлення сигналу також збільшує точність тестового набору (та продуктивність у реальному часі), а розміщення шуму зменшує обоє. Тому ми використовуємо такі речі, як регуляризація та випадання, і подібні методи, щоб зробити це важче підлаштовувати шум, і тим більше шансів підходити до сигналу.
Просто збільшення кількості шуму в навчальних даних є одним із таких підходів, але, мабуть, не буде настільки корисним. Порівняйте, наприклад, випадкове тремтіння із змагальним збільшенням; перший повільно та опосередковано покращить надійність, тоді як останній його різко та безпосередньо покращить.
PS: Тут вже надано кілька дуже хороших відповідей, я просто додам до них відповіді, сподіваючись, що хтось знайде це корисним:
Введення шуму в набір даних дійсно може мати позитивний вплив на модель. Насправді це може бути розцінено як те саме, що ви зазвичай робите з регуляторами, як відсідання . Деякі з прикладів цього - Zur at.al , Cires.at.al, де автори успішно внесли шум у набір даних, щоб зменшити перенапруження .
Улов полягає в тому, щоб знати, скільки шуму занадто багато. Якщо ви додасте занадто багато шуму, це може зробити ваш набір даних марним, оскільки отриманий набір даних більше не може містити достатньої схожості з оригінальним набором даних, тому ви можете тренуватися на зовсім іншому наборі даних. Таким чином, видно, що занадто багато шуму може спричинити недостатність, як і надзвичайно високі показники випаду.
Як говориться; Зміна балансу - пряність життя :).