Чи можна (теоретично) тренувати нейронну мережу з меншою кількістю зразків тренувань, ніж ваги?


12

Перш за все: я знаю, немає загальної кількості розміру вибірки, необхідної для тренування нейронної мережі. Це залежить від занадто багато факторів, таких як складність завдання, шум у даних тощо. І чим більше навчальних зразків у мене буде, тим краще буде моя мережа.

Але мені було цікаво: чи теоретично можливо тренувати нейронну мережу з меншими зразками тренувань, ніж ваги, якщо я вважаю, що моє завдання є достатньо "простим"? Хтось знає приклад, коли це спрацювало? Або ця мережа майже напевно буде поганою?

Якщо розглянути, наприклад, поліноміальну регресію, я не можу помістити поліном ступеня 4 (тобто з 5 вільними параметрами) лише на 4 точки даних. Чи існує подібне правило для нейронних мереж, враховуючи мою кількість ваг як кількість вільних параметрів?


Так: якщо ваги ініціалізуються випадковим чином, теоретично можливо отримати ідеально навчену нейронну мережу навіть з нульовими тренувальними зразками. (Публікація як коментар, а не відповідь, тому що я знаю, що це насправді не те, про що ви питаєте.)
Darren Cook

Відповіді:


17

Люди роблять це весь час великими мережами. Наприклад, відома мережа AlexNet має близько 60 мільйонів параметрів, тоді як ImageNet ILSVRC, на якій вона спочатку навчалася, має лише 1,2 мільйона зображень.

Причина, що ви не підходите до 5-ти параметричного полінома до 4-х точок даних, полягає в тому, що він завжди може знайти функцію, яка точно відповідає вашим точкам даних, але робить інше безглуздо в іншому місці. Ну, як було відмічено недавно , AlexNet та подібні мережі можуть вміщувати довільні мітки, що застосовуються до ImageNet, і просто запам'ятовувати їх усіх, імовірно, тому що у них набагато більше параметрів, ніж навчальні бали. Але щось про пріори мережі в поєднанні з процесом оптимізації стохастичного градієнта означає, що на практиці ці моделі все ще можуть добре узагальнити нові точки даних, коли ви надаєте їм справжні мітки. Ми досі не розуміємо, чому це відбувається.


2
+1. Чи можу додати, що для порівняння з поліноміальною регресією я також вважаю, що зразки є високомірними. Середня роздільна здатність зображення на ImageNet становить приблизно 469x387 пікселів, якщо їх обрізати на 256x256, ми маємо 1,2 мільйона 65k вхідних параметрів, які сильно корелюються в межах кожного зразка, тим самим надаючи набагато більше інформації нейронній мережі (і особливо конволюційній NN) ніж у випадку поліноміальної регресії.
jjmontes

3
@jjmontes правда, але головна загадка полягає в тому, що ці мережі мають можливість як запам'ятовувати, так і узагальнювати (добре). Іншими словами, вони можуть розбивати дані тренувань випадковими мітками і все ще добре узагальнювати. Це не те, що можна побачити в традиційних методах ML.
Амеліо Васкес-Рейна

6

Недостатньо визначені системи є лише невизначеними, якщо ви не встановлюєте жодних інших обмежень, крім даних. Дотримуючись вашого прикладу, встановлення полінома 4 градуси до 4 точок даних означає, що у вас є одна ступінь свободи, не обмежена даними, що залишає вам лінію (у просторі коефіцієнтів) однаково хороших рішень. Однак ви можете використовувати різні методи регуляризації, щоб зробити проблему відстежуючою. Наприклад, накладаючи штраф на норму L2 (тобто суму квадратів) коефіцієнтів, ви гарантуєте, що завжди знайдеться одне унікальне рішення з найвищою придатністю.

Методи регуляризації також існують для нейронних мереж, тому коротка відповідь на ваше запитання - «так, можна». Особливий інтерес представляє методика під назвою "випадання", в якій за кожне оновлення ваг ви випадково "скидаєте" певну підмножину вузлів з мережі. Тобто, для цієї конкретної ітерації алгоритму навчання ви робите вигляд, що ці вузли не існують. Без випадання мережа може вивчити дуже складні уявлення про вхід, які залежать від усіх вузлів, які працюють разом. Такі уявлення, швидше за все, «запам’ятовують» дані тренувань, а не знаходять узагальнені зразки. Випадання забезпечує те, що мережа не може використовувати всі вузли одразу для підгонки навчальних даних; він повинен вміти добре представляти дані, навіть якщо деякі вузли відсутні,

Також зауважте, що при використанні відсіву ступеня свободи в будь-якій точці під час тренінгу насправді може бути меншою, ніж кількість тренувальних зразків, хоча загалом ви навчаєтеся більше ваг, ніж тренувальних зразків.


2
Це, можливо, завищує роль, яку явна регуляризація відіграє у глибоких мережах: цей документ, про який я згадував у своїй відповіді, показує випадання та інші форми регуляризації, що мають лише невеликі ефекти на те, наскільки мережа може запам'ятати. Можливо, можливо, ваша основна історія правильна, але головна регуляризація в грі - це неявна з SGD; це все ще дещо мутно.
Дугал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.