Я дуже запізнююсь на гру, але хотів опублікувати, щоб відобразити деякі поточні події в згорткових нейронних мережах щодо пропускних з'єднань .
Нещодавно дослідницька команда Microsoft перемогла у конкурсі ImageNet 2015 та випустила технічний звіт « Глибоке залишкове навчання для розпізнавання зображень», в якому описує деякі їх основні ідеї.
Одним з їх головних внесків є ця концепція глибоких залишкових шарів . Ці глибокі залишкові шари використовують пропускні з'єднання . Використовуючи ці глибокі залишкові шари, вони змогли навчити сітку конвеєрів 152 шарів для ImageNet 2015 року. Вони навіть навчили сітку конвертів 1000+ для CIFAR-10.
Проблема, яка їх мотивувала, полягає в наступному:
Коли більш глибокі мережі зможуть почати конвергенцію, виявляється проблема деградації : із збільшенням глибини мережі точність стає насиченою (що може бути не дивно), а потім швидко знижується. Несподівано така деградація не викликана переозброєнням , а додавання більше шарів до належно глибокої моделі призводить до вищої помилки в навчанні ...
Ідея полягає в тому, що якщо взяти "дрібну" мережу і просто укладати більше шарів, щоб створити більш глибоку мережу, продуктивність більш глибокої мережі повинна бути як мінімум такою ж мірою, як мілка мережа, оскільки більш глибока мережа могла б дізнатися точну дрібну. мережу, встановивши нові складені шари на рівні шарів ідентичності (насправді ми знаємо, що це, мабуть, малоймовірно, що станеться, не використовуючи архітектурних пріорів чи сучасних методів оптимізації). Вони зауважили, що це не так, і помилка тренувань іноді погіршується, коли вони укладають більше шарів поверх неглибокої моделі.
Таким чином, це мотивувало їх використовувати пропускні з'єднання та використовувати так звані глибокі залишкові шари, щоб дозволити їхній мережі дізнатися відхилення від шару ідентичності, отже, термін залишковий , залишковий тут посилається на відмінність від ідентичності.
Вони реалізують пропускні з'єднання таким чином:
Тож вони розглядають карту як деяку залишкову карту. Вони використовують з'єднання пропускного шару, щоб передати це відображення в . Отже, якщо залишковий "малий", карта приблизно відповідає тотожності.Ж( x ) : = H ( x ) - xЖ( x ) + x = H ( x )Ж( х )H (x)
Таким чином, використання глибоких залишкових шарів через пропускні з'єднання дозволяє їх глибоким мережам дізнаватися приблизні шари ідентичності, якщо це дійсно те, що є оптимальним або локально оптимальним. Дійсно, вони стверджують, що їх залишкові шари:
Покажемо експериментами (рис. 7), що вивчені залишкові функції взагалі мають невеликі відгуки
А чому саме це працює, вони не мають точної відповіді. Вкрай малоймовірно, що шари ідентичності є оптимальними, але вони вважають, що використання цих залишкових шарів допомагає передумовити проблему, і що легше вивчити нову функцію за умови відліку / базової лінії порівняння з картографічним ідентифікацією, ніж навчитися "з нуля" без використання базової лінії ідентичності Хто знає. Але я подумав, що це буде гарною відповіддю на ваше запитання.
До речі, заднім числом: відповідь сашкелло ще краща, чи не так?