Чи знають вчені, що відбувається всередині штучних нейронних мереж?


69

Чи знають вчені чи дослідники з кухні, що відбувається всередині складної "глибокої" нейромережі, принаймні мільйони з'єднань спрацьовують миттєво? Чи розуміють вони процес, що стоїть за цим (наприклад, що відбувається всередині і як саме воно працює), або це предмет дискусії?

Наприклад, це дослідження говорить:

Однак немає чіткого розуміння того, чому вони так добре працюють, або як їх можна вдосконалити.

Так це означає, що вчені насправді не знають, як працюють складні моделі згорткової мережі?


" чому вони працюють так добре " - вони насправді не так добре. Як і у більшості нових технологій, про невдачі повідомляється недостатньо.
Томаш Зато

Відповіді:


51

Існує багато підходів, які мають на меті зробити навчену нейронну мережу більш зрозумілою та менш схожою на «чорну скриньку», зокрема, зведені вами нейронні мережі .

Візуалізація активацій та ваг шару

Візуалізація активацій - перша очевидна та прямолінійна. Для мереж ReLU активації зазвичай починають виглядати відносно непомітними і щільними, але в міру проходження тренувань активація зазвичай стає більш рідкою (більшість значень дорівнює нулю) і локалізується. Це іноді показує, на що саме зосереджений конкретний шар, коли він бачить зображення.

Ще одна велика робота з активації, яку я хотів би зазначити, - це глибоке вікно, яке показує реакцію кожного нейрона на кожному шарі, включаючи об'єднання та нормалізацію шарів. Ось як вони це описують :

Коротше кажучи, ми зібрали декілька різних методів, які дозволяють «тріангулювати» те, чого ознака засвоїв нейрон, який може допомогти вам краще зрозуміти, як працюють ДНЗ.

Друга загальна стратегія - візуалізація ваг (фільтрів). Зазвичай вони найбільш інтерпретовані на першому шарі CONV, який дивиться безпосередньо на вихідні дані пікселів, але можна також показати ваги фільтрів глибше в мережі. Наприклад, перший шар зазвичай вивчає фільтри, схожі на габор, які в основному виявляють краї та краплі.

фільтри першого шару

Оклюзійні експерименти

Ось ідея. Припустимо, що ConvNet класифікує зображення як собаку. Як ми можемо бути впевнені, що це насправді підбирає собаку на зображенні, на відміну від деяких контекстуальних підказки з фону або якогось іншого предмета?

Один із способів дослідження, з якої частини зображення походить деяке класифікаційне передбачення, - побудова графіку ймовірності класу, що цікавить (наприклад, клас собаки) як функції положення об'єкта окклюдера. Якщо ми повторимо регіони зображення, замінимо його всіма нулями і перевіримо результат класифікації, ми можемо побудувати двовимірну теплову карту того, що для конкретного зображення є найважливішим для мережі. Цей підхід був використаний у візуалізації та розумінні мереж Меттью Цейлера (що ви посилаєтесь у своєму запитанні):

оклюзійні експерименти

Деконволюція

Інший підхід полягає в синтезі зображення, що викликає загострення певного нейрона, в основному те, що нейрон шукає. Ідея полягає у тому, щоб обчислити градієнт відносно зображення, а не звичайний градієнт щодо ваг. Таким чином, ви вибираєте шар, встановлюєте там градієнт, який дорівнюватиме нулю, за винятком одного для одного нейрона та заднього відтворення зображення.

Deconv насправді робить щось, що називається керованою розмноженням, щоб зробити зображення більш красивим, але це лише деталь.

Аналогічні підходи до інших нейронних мереж

Настійно рекомендую цю посаду Андрія Карпаті , в якій він багато грає з періодичними нейронними мережами (RNN). Зрештою, він застосовує подібну методику, щоб побачити, що насправді вивчають нейрони:

Нейрон, виділений на цьому зображенні, схоже, дуже захоплюється URL-адресами і вимикається поза URL-адресами. LSTM, ймовірно, використовує цей нейрон, щоб пам’ятати, знаходиться він всередині URL-адреси чи ні.

Висновок

Я згадав лише невелику частину результатів у цій галузі досліджень. Це досить активні та нові методи, які проливають світло на внутрішні роботи нейронної мережі з'являються щороку.

Щоб відповісти на ваше запитання, завжди є щось, про що вчені ще не знають, але у багатьох випадках вони добре (літературно) уявляють, що відбувається всередині, і можуть відповісти на багато конкретних питань.

Для мене цитата з вашого запитання просто підкреслює важливість дослідження не тільки підвищення точності, але й внутрішньої структури мережі. Як розповідає Метт Цилер у цій розмові , іноді хороша візуалізація може призвести, у свою чергу, до кращої точності.


Візуалізує знання? Або це просто модне рішення незнання? Можливо, математичний розвиток - це сфера, якій найбільш не вистачає суворості та достатності.
Фахристиян

1
@FauChristian Ви тут не пропускаєте суть. Ваги та всі математичні можливості всередині нейронної мережі точно відомі , як і код складання. Це не викликає сумніву. Візуалізація дозволяє зрозуміти, чому певні операції відбуваються, і призводить до хорошої продуктивності. Ще раз, як класичні алгоритми інформатики. Окрім того, я закликаю вас прочитати статтю Цилера за адресою al, згадану у відповіді.
Максим

1
Я не пропустив цих балів, вивчивши їх як недолік. Я хоч і лінив у своєму коментарі. Сітка B&W, що представляє ядра, цікава лише тим, що вона показує дещо хаотичну матрицю станів ядра виявлення хвилястих країв, що вказує на необхідність характеризувати хаос для її осмислення. Який їх розподіл за розмірами, кутовий розподіл та косий розподіл? Чи вказують ці розподіли (a) надмірна відповідність, специфічна для певних наборів даних, або (b) загальна схема, яка може бути замінена функціональним блоком з більшою ефективністю обчислення. ~~ Один раз не можу сказати з візуального.
Fauhhristian

1
Правильно, всі ці розподіли (і багато-багато інших) тут не обчислюються. Це не означає, що вони не можуть або не повинні бути обчислені. Це також не означає, що інтерпретація моделі не має нічого спільного з візуалізацією. Я вкотре закликаю вас прочитати "Візуалізація та розуміння конволюційних мереж" Цилера в ін, де автори детально обговорюють це.
Максим

У нас це є в лабораторії. Мій соратник пробігся через деякі приклади коду. Я погляну на це зі сторони статистики. Дякую.
Фахрістіан

27

Це залежить від того, що ви маєте на увазі під «знайте, що відбувається».

Концептуально, так: ANN виконують нелінійну регресію. Фактичне вираження, представлене ваговою матрицею / функцією активації ANN, може бути явно розширено у символічній формі (наприклад, що містить під вирази, такі як ).1/1+e1/1+e

Однак, якщо під «знанням» ви маєте на увазі передбачити вихід якогось конкретного (чорного поля) ANN якимось іншим способом, то перешкодою є наявність хаосу в ANN, який має високий ступінь свободи .

Ось також відносно нещодавня робота Хода Ліпсона щодо розуміння ANN за допомогою візуалізації .


13

Коротка відповідь - ні .

Інтерпретабельність моделі - це гіпер-активна та гаряча область сучасних досліджень (подумайте про святий грааль чи щось таке), яка останнім часом висувається не в останню чергу завдяки (часто надзвичайному) успіху моделей глибокого навчання у різних завданнях; ці моделі наразі є лише чорними скриньками, і ми, природно, відчуваємо це незручно ...

Ось декілька загальних (та останніх, станом на грудень 2017 року) ресурсів на цю тему:

І на більш практичному рівні (код тощо):

Останнім часом спостерігається сплеск інтересу почати будувати більш теоретичну основу для глибокого вивчення нейронних мереж. У цьому контексті відомий піонер статистики та компресійного зондування Девід Донохо зовсім недавно (осінь 2017 року) почав пропонувати курси в Стенфорді, " Теорії глибокого навчання" (STATS 385) , з майже всіма матеріалами, доступними в Інтернеті; настійно рекомендується ...

ОНОВЛЕННЯ :


Привіт. Це здається гарною відповіддю, але вам потрібно це почистити і трохи організувати. Перші ресурси повинні бути найбільш корисними та загальними. Потім ви можете перелічити більш конкретні ресурси та наукові праці, ІМХО. А пізніше ви можете перелічити, наприклад, теми Twitter або що завгодно.
nbro


8

Боюся, у мене немає конкретних цитат під рукою, але я бачив / чув цитати таких експертів, як Ендрю Нг та Джеффрі Хінтон, де вони чітко говорять, що ми не дуже розуміємо нейронні мережі. Тобто, ми розуміємо щось із того, як вони працюють (наприклад, математику заднього розповсюдження), але ми не розуміємо, чому вони працюють. Це якесь тонке розрізнення, але справа в тому, що ні, ми не розуміємо найглибших подробиць того, як саме ти йдеш з кучки ваг, щоб, скажімо, розпізнати кішку, що грає з м’ячем.

Принаймні, з точки зору розпізнавання зображень, найкраще пояснення, яке я чув, - це те, що послідовні шари нейронної мережі вивчають більш складні функції, що складаються з більш деталізованих ознак попередніх рівнів. Тобто перший шар може розпізнавати "краї" чи "прямі". Наступний шар може потім вивчити геометричні фігури, такі як "коробка" або "трикутник", а потім вищий шар може вивчити "ніс" або "око", виходячи з цих попередніх особливостей, і тоді рівень вищого рівня все ще дізнається "обличчя", зроблене вгору від "очей", "носа", "щелепи" і т. д. Але навіть це, наскільки я розумію, все ще гіпотетично та / або не зрозуміле до кінця.


2
Мені буде цікаво прочитати фактичні цитати. На найширшому понятійному рівні, чому саме "Вони є універсальними аплікаторами функцій, навченими зменшити помилку в проблемі регресії".
NietzscheanAI

Я побачу, чи зможу їх відстежити. Я впевнений, що цитата Джеффрі Хінтона, про яку я думаю, є у відеоролику. Якщо я можу його знайти, я відредагую свою відповідь і
посилаю

Я не забув. Я спробую їх знайти, коли у мене буде трохи вільного часу. Я думаю, що принаймні один із тих, про кого я думаю, був з відео, яке є частиною курсу Coursera.
розум злочину

Це дослідження може допомогти скласти ті самі посилання: "Однак немає чіткого розуміння того, чому вони працюють настільки добре, або як їх можна вдосконалити".
kenorb

4

Ось відповідь Карлоса Е. Переса на питання: Що стоїть за теорією глибокого навчання?

[...]

Основа математики глибокого навчання існує вже кілька десятиліть, однак вражаючі результати, які ми бачимо сьогодні, є наслідком набагато швидшого апаратного забезпечення, більшої кількості даних та додаткового вдосконалення методів.

Глибоке навчання в цілому може бути охарактеризовано як проблема оптимізації, де мета - функція помилки моделі. Цю проблему оптимізації дуже важко вирішити, враховуючи, що простір параметрів моделі (тобто ваги нейронної мережі) призводить до проблеми в надзвичайно високому вимірі. Алгоритм оптимізації може зайняти дуже багато часу для вивчення цього простору. Крім того, існувала неперевірена думка, що проблема не випукла, і обчислення назавжди будуть застрявати в локальних мінімумах.

[...]

Теорія того, чому машини насправді зближуються з аттрактором або іншими словами вчиться розпізнавати складні зразки, досі невідома.

Підсумовуючи: у нас є деякі ідеї, але ми не зовсім впевнені.


3

Чи знають вчені, що відбувається всередині штучних нейронних мереж?

ТАК

Чи знають вчені чи дослідники з кухні, що відбувається всередині складної "глибокої" нейромережі, принаймні мільйони з'єднань спрацьовують миттєво?

Я здогадуюсь "знати з кухні" означає "знати детально"?

Дозвольте навести ряд аналогій:

  1. Чи знає інженер літака з кухні, що відбувається всередині літака?
  2. Чи знає дизайнер чіпів докладно, що відбувається з чіпами, які він створив?
  3. Чи знає інженер-цивільник усе про будинок, який він побудував?

Чорт у деталях, але вирішальним моментом тут є те, що йдеться про штучні споруди. Вони не з'являються випадковим чином. Вам потрібно багато знань, щоб отримати щось корисне. Для Нейронних мереж я б сказав, що пройшло приблизно 40 років від опублікування ключової ідеї (Rosenblatt perceptron, 1957) до першої заявки (US Postal Service, 1989). А звідти знову 13 років активного пошуку дійсно вражаючих систем (ImageNet 2012).

Те, що ми добре знаємо, - це як працює тренінг . Тому що це потрібно реалізувати. Тож про дуже малу структуру ми це детально знаємо.

Подумайте про комп’ютери. Дизайнери чіпів добре знають, як працює їх чіп. Але вони, ймовірно, матимуть лише дуже грубе уявлення про те, як працює операційна система Linux.

Інший приклад - фізика та хімія: фізика описує основні сили Всесвіту. Це означає, що вони знають все і про хімію? Ніяк ні! "Ідеальний" фізик може пояснити все з хімії ... але це було б майже марно. Йому знадобиться набагато більше інформації, не зможе пропустити невідповідні частини. Просто тому, що він занадто "збільшив масштаб" - розглядає деталі, які на практиці не є ні цікавими, ні важливими. Зверніть увагу, що знання фізика не помиляються. Можливо, з нього можна було навіть вивести знання з хіміка. Але цього "високого" розуміння взаємодії молекули відсутнє.

Основне розуміння цих двох прикладів - це шари абстракції: Ви можете побудувати складність з простих структур .

Що ще?

Ми добре знаємо, чого в принципі можна досягти з нейронних мереж, які ми проектуємо:

  • Нейронна мережа, покликана грати Go - незалежно від того, наскільки витончена - ніколи навіть не зможе грати в шахи. Можна, звичайно, додати ще один шар абстракції навколо нього і комбінувати речі. Але такий підхід потребує людей.
  • Нейронна мережа, розроблена для того, щоб відрізняти собак від котів, які бачили лише пудель і перських котів, швидше за все, виявляться погано, коли доведеться вирішувати йоркширських тер’єрів.

О, і, звичайно, у нас є аналітичні підходи до нейронних мереж. Я написав магістерську дисертацію про аналіз та оптимізацію архітектур конволюційних нейронних мереж . У цьому контексті приємно LIME (Локальні інтерпретовані моделі-агностичні пояснення):

введіть тут опис зображення


1
Більшість із них впливають на біологічні моделі. Отже, вчені побудували НН як функцію проблеми - важко повірити ... Особливо, коли ніхто не має уявлення, чому конкретна архітектура чи певний набір гіперпараметрів добре працюють дана проблема ... Я не кажу про точні гіперпараметри, але жоден, схоже, не має загального розуміння того, які приблизні гіперпараметри можуть працювати для даної проблеми (проблема чітко визначена). Тож жодні вчені не знають, що відбувається всередині a NN.
DuttaA

Подумайте про автомобільних / авіаційних інженерів раннього дня. Ви б сказали, що вони не знають, що відбувається всередині їх літака / автомобіля, тому що вони не побудували їх, оскільки їх форма не була аеродинамічною?
Мартін Тома

1
Ofc ... Не знаючи чогось через брак технології ... Це щось інше, ніж теоретично не знати .. Я вважаю, що це була технологія у випадку з літаками. Хоча тут ми не в змозі обробити математично.
Тож

1

Я просто хотів щось додати:

це залежить від того, що ви розумієте під вченим:

Я докторант з електротехніки, і я бачив, як багато дослідників працюють з ANN, у таких проблемах, як регресія, контроль прогнозування, адаптаційний контроль та класифікаційні проблеми.

Ви можете чітко помітити, що їх брак навичок кодування є головним недоліком, і вони насправді не зовсім розуміють, що відбувається всередині ANN, зараз я навіть не кажу про Deep , вони борються за розуміння простих речей, таких як ADALINEs та ANFIS! все, що ви чуєте, говорять так: дайте їм дані, і вони адаптуються!


1
Хоча ви, напевно, маєте рацію в концептуальному плані, ви можете отримати кілька голосів і, можливо, бути корисною, якщо ви перепишете свою відповідь, щоб наштовхнутися на соціологічне спостереження, а не на педантичну тираду.
Фахристиян
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.