Як застереження, я працюю над нейронними мережами у своїх дослідженнях, але я, як правило, використовую порівняно невеликі неглибокі нейронні сітки, а не справді глибокі мережі в передній частині дослідження, яку ви цитуєте у своєму питанні. Я не фахівець з примх та особливостей дуже глибоких мереж, і буду відкладатись перед кимось, хто є.
По-перше, в принципі, немає жодної причини, що вам взагалі потрібні глибокі нейронні сітки. Досить широка нейронна мережа з лише одним прихованим шаром може наблизити будь-яку (розумну) функцію за умови достатньої кількості навчальних даних. Однак існує кілька труднощів із використанням надзвичайно широкої неглибокої мережі. Головне питання полягає в тому, що ці дуже широкі неглибокі мережі дуже добре запам’ятовують, але не так добре узагальнюють . Отже, якщо ви тренуєте мережу з усіма можливими значеннями входу, суперширока мережа може врешті запам'ятати відповідне вихідне значення, яке ви хочете. Але це не корисно, оскільки для будь-якого практичного застосування ви не будете мати всі можливі вхідні значення для навчання.
Перевага декількох шарів полягає в тому, що вони можуть вивчати особливості на різних рівнях абстракції . Наприклад, якщо ви тренуєте глибоку згорнуту нейронну мережу для класифікації зображень, ви виявите, що перший шар навчить себе розпізнавати такі основні речі, як краї, наступний шар навчить себе розпізнавати колекції ребер, таких як форми, наступний шар навчить себе розпізнавати колекції фігур, таких як очі або носи, а наступний шар вивчить ще більш високі порядки, такі як обличчя. Кілька шарів набагато краще в узагальненні, оскільки вони вивчають усі проміжні особливості між необробленими даними та класифікацією на високому рівні.
Отже, це пояснює, чому ви можете використовувати глибоку мережу, а не дуже широку, але дрібну мережу. Але чому б не дуже глибока, дуже широка мережа? Я думаю, що відповідь там полягає в тому, що ви хочете, щоб ваша мережа була якомога меншою для отримання хороших результатів. Збільшуючи розмір мережі, ви дійсно просто вводите більше параметрів, які ваша мережа повинна вивчити, а отже, збільшуєте шанси на перевитрату. Якщо ви будуєте дуже широку, дуже глибоку мережу, ви маєте шанс кожен шар просто запам’ятати, яким ви хочете виходити, і ви отримаєте нейронну мережу, яка не зможе узагальнити нові дані.
Окрім привабливості, чим ширше ваша мережа, тим довше буде потрібно тренуватися . Глибокі мережі вже можуть бути дорого обчислюваними для навчання, тому існує сильний стимул зробити їх досить широкими, щоб вони добре працювали, але не ширше.