Чи слід розглядати глибокі залишкові мережі як ансамбль мереж?


12

Питання стосується архітектури Deep Residual Networks ( ResNets ). Модель, яка зайняла 1-е місце на "Large Visle Visual Recognition Challenge 2015" (ILSVRC2015) у всіх п'яти основних треках:

  • Класифікація ImageNet: "Ультраглибокі" (цитата Янна) 152-шарові сітки
  • Виявлення ImageNet: на 16% краще, ніж 2-е
  • Локалізація ImageNet: на 27% краще 2-го
  • Виявлення COCO: на 11% краще, ніж 2-е
  • Сегментація COCO: на 12% краще, ніж 2-е

    джерело: змагання MSRA @ ILSVRC & COCO 2015 (презентація, другий слайд)

Ця робота описана в наступній статті:

Глибоке залишкове навчання для розпізнавання зображень (2015, PDF)


Дослідницька команда Microsoft (розробники ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) у своїй статті:

" Зображення особи в глибоких залишкових мережах (2016) "

констатуйте, що глибина відіграє ключову роль:

" Ми отримуємо ці результати за допомогою простої, але найважливішої концепції - заглиблюватися. Ці результати демонструють потенціал просування меж глибини ".

Наголошується також у їх викладі (глибше - краще):

- "Більш глибока модель не повинна мати помилок вищої підготовки".
- "Глибші ResNets мають меншу похибку тренувань, а також меншу помилку тесту."
- "Більш глибокі ResNets мають меншу помилку."
- "Всі отримуйте більше користі від більш глибоких особливостей - накопичувальних вигод!"
- "Глибше все-таки краще".

Ось структура 34-шарових залишків (для довідки): введіть тут опис зображення


Але нещодавно я знайшов одну теорію, яка вводить нове тлумачення залишкових мереж, показуючи, що вони є експоненціальними ансамблями:

Залишкові мережі - це експоненціальні ансамблі відносно дрібних мереж (2016)

Глибокі ресети описуються як безліч дрібних мереж, виходи яких об'єднані на різних глибинах. У статті є малюнок. Я додаю це з поясненням:

введіть тут опис зображенняЗалишкові мережі умовно відображаються у вигляді (а), що є природним поданням рівняння (1). Коли ми розширюємо цю формулу до рівняння (6), ми отримуємо нерозгаданий вигляд залишкової мережі 3-блоку (b). З цього погляду видно, що залишкові мережі мають неявні контури O (2 ^ n), що з'єднують вхід і вихід і що додавання блоку подвоює кількість шляхів.

На закінчення статті зазначено:

Не глибина, але ансамбль робить залишкові мережі міцними . Залишкові мережі висувають межі кратності мережі, а не глибини мережі. Запропонований нами нерозгаданий вигляд та дослідження ураження показують, що залишкові мережі є неявним ансамблем експоненціально багатьох мереж. Якщо більшість контурів, які сприяють градієнту, дуже короткі порівняно із загальною глибиною мережі, однаково збільшена глибина не може бути ключовою характеристикою залишкових мереж. Зараз ми вважаємо, що багатогранність , виразність мережі з точки зору кількості шляхів відіграють ключову роль .

Але підтвердити або спростувати це лише недавня теорія. Буває, що деякі теорії спростовуються, а статті вилучаються.


Чи слід думати про глибокі ResNets як ансамбль? Ансамбль чи глибина робить залишкові мережі настільки сильними? Чи можливо, що навіть самі розробники не зовсім сприймають, що являє їх власна модель і що є ключовою концепцією в ній?

Відповіді:


4

Уявіть, що джин дарує вам три побажання. Оскільки ви амбітний дослідник глибокого навчання, першим вашим бажанням є ідеальне рішення для 1000-шарового NN для Image Net, який швидко з’являється на вашому ноутбуці.

Тепер рішення, спричинене джином, не дає вам ніякої інтуїції, як це можна інтерпретувати як ансамбль, але ви дійсно вірите, що вам потрібно 1000 шарів абстракції, щоб відрізнити кота від собаки? Як згадують автори «ансамблевого паперу», це, безумовно, не стосується біологічних систем.

Звичайно, ви можете витратити друге бажання на розкладання рішення в ансамбль мереж, і я впевнений, що джин зможе зобов’язати. Причина полягає в тому, що частина сили глибокої мережі завжди буде залежати від ефекту ансамблю.

Тож не дивно, що два дуже вдалі трюки для тренування глибоких мереж, відсіву та залишкових мереж мають негайну інтерпретацію як неявний ансамбль. Тому "це не глибина, але ансамбль" вражає мене хибною дихотомією. Ви дійсно сказали б лише, що якби ви чесно вірили, що вам потрібно сотні чи тисячі рівнів абстракції, щоб класифікувати зображення з людською точністю.

Я пропоную вам скористатися останнім бажанням для чогось іншого, можливо, пінаколади.


0

Випадкові залишкові мережі для багатьох нелінійностей, таких як тан, живуть на краю хаосу, оскільки косинусова відстань двох вхідних векторів буде сходитися до фіксованої точки з поліноміальною швидкістю, а не експоненціальною швидкістю, як у мережах ванільних танів. Таким чином, типова залишкова мережа буде повільно перетинати стійку-хаотичну межу з глибиною, колись навколо цієї межі на багатьох шарах. В основному він не «забуває» геометрію вхідного простору «дуже швидко». Тож навіть якщо ми зробимо їх значно глибшими, вони краще працюють на ванільні мережі.

Для отримання додаткової інформації про поширення інформації в залишкових мережах - Середні залишкові мережі: на межі хаосу

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.