Як працює "теорія капсул" Хінтона?


35

Джеффрі Хінтон досліджував те, що він називає "теорією капсул" в нейронних мережах. Що це таке і як це працює?


8
Тепер цей документ можна переглянути за адресою: arxiv.org/abs/1710.09829 Динамічна маршрутизація між капсулами Сара Сабор, Ніколас Фрост, Джеффрі Е Хінтон
Данке Сі

1
Існує пов'язане питання з новою інформацією (листопад 2017 р.): Яка основна концепція Capsule Networks?
mjul

Відповіді:


31

Здається, вона ще не опублікована; найкращі доступні в Інтернеті - це слайди для цієї бесіди . (Кілька людей посилаються на попередню розмову за цим посиланням , але, на жаль, вона порушена під час написання цієї відповіді.)

Моє враження, що це спроба формалізувати та абстрагувати створення підмереж всередині нейронної мережі. Тобто, якщо подивитися на стандартну нейронну мережу, шари повністю з’єднані (тобто кожен нейрон в шарі 1 має доступ до кожного нейрона в шарі 0, а сам отримує доступ до кожного нейрона в шарі 2). Але це очевидно не корисно; натомість можна мати, скажімо, п паралельних стеків шарів («капсул»), які кожен спеціалізується на якомусь окремому завданні (яке може вимагати більше одного шару для успішного завершення).

Якщо я правильно уявляю його результати, ця більш досконала топологія графіків здається чимось, що може легко підвищити ефективність та інтерпретацію отриманої мережі.


9
Стаття опублікована (жовтень 2017 р.) Опублікована: arxiv.org/pdf/1710.09829.pdf
машино

13

На доповнення до попередньої відповіді: з цього приводу є робота, яка здебільшого стосується вивчення капсул низького рівня з необроблених даних, але в своєму вступному розділі пояснює концепцію Хінтона про капсулу: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf

Варто також зазначити, що посилання на розмову про MIT у відповіді вище, здається, працює знову.

За словами Хінтона, «капсула» - це підмножина нейронів у шарі, яка видає як «параметр інстанції», що вказує, чи є сутність у обмеженій області, так і вектор «параметрів пози», що вказують пози сутності щодо канонічна версія.

Параметри, що виводяться капсулами низького рівня, перетворюються в прогнози для пози сутностей, представлених капсулами вищого рівня, які активуються, якщо прогнози узгоджуються і виводять власні параметри (параметри пози вищого рівня - це середні показники отриманих прогнозів ).

Хінтон розмірковує, що саме це об'ємне виявлення збігу обставин - це те, для чого потрібна організація міні-стовпців у мозку. Його головна мета, здається, полягає в заміні максимального об'єднання, використовуваного в згорткових мережах, в яких більш глибокі шари втрачають інформацію про позу.


4

Капсульні мережі намагаються імітувати спостереження Гінтона над людським мозком на апараті. Мотивація випливає з того, що нейронні мережі потребували кращого моделювання просторових зв’язків деталей. Замість моделювання співіснування, нехтуючи відносним розташуванням, капсульні сітки намагаються моделювати глобальні відносні перетворення різних підрозділів уздовж ієрархії. Це компроміс між еквіваріансом та інваріантністю, як пояснено вище іншими.

Тому ці мережі включають дещо усвідомлення точки зору / орієнтації і по-різному реагують на різні орієнтації. Ця властивість робить їх більш дискримінаційними, при цьому потенційно вводячи здатність виконувати оцінку пози, оскільки особливості прихованого простору містять інтерпретаційні та конкретні деталі.

Все це досягається включенням всередину шару вкладеного шару, який називається капсулами, замість того, щоб об'єднати ще один шар у мережу. Ці капсули можуть забезпечувати векторний вихід замість скалярного на вузол.

Найважливішим внеском статті є динамічна маршрутизація, яка замінює стандартний максимум об'єднань розумною стратегією. Цей алгоритм застосовує кластеризацію середнього зсуву на виходи капсули, щоб переконатися, що вихід надсилається тільки відповідному батьківському шару в шарі вище.

Автори також пов'язують внески із втратою запасу та втратою від відновлення, які одночасно допомагають краще засвоїти завдання та показують сучасні результати в MNIST.

Недавній документ має назву Динамічна маршрутизація між капсулами і доступний на Arxiv: https://arxiv.org/pdf/1710.09829.pdf .


3

Виходячи з їхньої статті Динамічна маршрутизація між капсулами

Капсула - це група нейронів, вектор активності якої представляє параметри інстанції конкретного типу сутності, наприклад об'єкта або частини об'єкта. Ми використовуємо довжину вектора активності, щоб представити ймовірність існування сутності та її орієнтацію для представлення параметрів інстанції. Активні капсули на одному рівні роблять прогноз за допомогою матриць перетворення для параметрів екземпляра капсул вищого рівня. Коли кілька прогнозів згодні, капсула вищого рівня стає активною. Ми показуємо, що дискримінаційно підготовлена ​​багатошарова система капсул досягає найсучасніших характеристик на MNIST і є значно кращою за звивисту мережу при визнанні сильно перекриваються цифр. Для досягнення цих результатів ми використовуємо ітеративний механізм маршрутизації за домовленістю: Капсула нижнього рівня вважає за краще направляти свій вихід на капсули вищого рівня, вектори активності яких мають великий скалярний продукт з прогнозом, що надходить з капсули нижнього рівня. Остаточна версія статті переглядається, щоб включити коментарі рецензентів.


2
Хороша відповідь, як правило, більше, ніж просто цитата. Зазвичай ви можете перезапуститись більш чітким способом або перейти до подальшої глибини. Дуже рідко є лише цитата, яка потрібна, щоб дати хорошу відповідь. Як ви вважаєте, ви могли б це трохи покращити, відредагувавши ?
користувач58

3

Однією з головних переваг конволюційних нейронних мереж є їх інваріантність у перекладі. Однак ця інваріантність пов'язана з ціною, тобто вона не враховує, наскільки різні особливості пов'язані один з одним. Наприклад, якщо у нас є зображення обличчя, CNN матиме труднощі розрізняти особливості рота та особливості носа. Максимальна кількість шарів є основною причиною цього ефекту. Тому що, коли ми використовуємо максимум шарів об'єднання, ми втрачаємо точні розташування рота та шум, і не можемо сказати, наскільки вони пов’язані між собою.

Капсули намагаються утримати перевагу CNN та виправити цей недолік двома способами;

  1. Інваріантність: цитування з цього приводу статті

Якщо капсула працює належним чином, ймовірність наявності візуальної сутності є локально інваріантною - вона не змінюється, коли сутність переміщується над безліччю можливих появи в межах обмеженого домену, охопленого капсулою.

Іншими словами, капсула враховує існування тієї специфічної особливості, яку ми шукаємо, як рот або ніс. Ця властивість гарантує, що капсули є інваріантними для перекладу так само, як і CNN.

  1. Еквівалентність: замість того, щоб зробити інваріантність перекладу функції , капсула зробить її перекладом-еквівалентом або точкою перегляду-еквівалентом. Іншими словами, у міру того, як функція рухається та змінює своє положення на зображенні, представлення векторного зображення також змінюватиметься тим самим чином, що робить його еквівалентним. Ця властивість капсул намагається вирішити недолік максимальних об'єднань шарів, про які я згадував на початку.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.