Чи не можна зараз сказати, що моделі глибокого навчання є інтерпретаційними? Чи є особливості вузлів?


27

Для статистичної та машинної моделей навчання існує кілька рівнів інтерпретаційності: 1) алгоритм в цілому, 2) частини алгоритму в цілому 3) частини алгоритму на конкретних входах, і ці три рівні розділяються на дві частини кожен, один для тренувань та один для функції eval. Останні дві частини набагато ближче, ніж до першої. Я запитую про №2, що зазвичай призводить до кращого розуміння №3). (якщо це не те, що означає «інтерпретація», то про що я повинен думати?)

Що стосується інтерпретаційності, логістична регресія є однією з найпростіших для інтерпретації. Чому цей екземпляр переступив поріг? Тому що цей екземпляр мав саме цю позитивну особливість і він має більший коефіцієнт в моделі. Це так очевидно!

Нейронна мережа - класичний приклад моделі, яку важко інтерпретувати. Що означають всі ці коефіцієнти означають ? Усі вони складаються настільки складними шаленими способами, що важко сказати, що насправді робить якийсь конкретний коефіцієнт.

Але коли виходять усі глибокі нейронні сітки, то відчувається, що все стає зрозумілішим. Моделі DL (наприклад, бачення), схоже, фіксують такі речі, як краї або орієнтація на ранніх шарах, а в пізніших шарах здається, що деякі вузли насправді є семантичними (як прислів’я «бабусина клітина» ). Наприклад:

введіть тут опис зображення

( з розділу "Навчання про глибоке навчання" )

Це графіка ( з багатьох там ), створена вручну для презентації, тому я дуже скептично ставлюсь. Але це свідчення того, що хтось думає, що так воно і працює.

Можливо, в минулому просто не вистачало шарів, щоб ми могли знайти впізнавані функції; моделі були успішними, просто непросто проаналізувати окремі.

Але, можливо, графіка - просто бажане мислення. Можливо, НН справді непереборні.

Але багато графіки з їх вузлами, позначеними зображеннями, також справді переконливі.

Чи дійсно вузли DL відповідають характеристикам?


6
Я не бачу передумови цього питання. Те, що нейронні мережі стали складнішими і дають кращі прогнози, не робить їх більш зрозумілими. Звичайно, правдиво: складність / краще прогнозування <-> простота / краща інтерпретація.
AdamO

4
@AdamO абсолютно правильно. Через це дерева регресії (рекурсивний поділ) можна зрозуміти лише тому, що результати неправильні . Вони помиляються, тому що вони мінливі; отримати новий зразок, і дерево може бути довільно різним. І поодинокі дерева не є конкурентоспроможними щодо передбачувальної дискримінації. Потворність часто є ворогом прогностичної дискримінації. На первісне питання, що у біомедичній галузі результати AI / ML не піддаються інтерпретації.
Френк Харрелл

1
Дивіться цю статтю. Дослідники AI стверджують, що машинне навчання - це алхімія sciencemag.org/news/2018/05/…
Майк Хантер

4
Сміливе запитання в тілі та питання у вашій назві дуже різняться. Схоже, усі відповіді, включаючи мою, стосуються питання в заголовку. Можливо, ви могли б задати більш вузьке запитання щодо вузлів та особливостей у власній нитці? Але перш ніж це зробити, подумайте, що ви вже пов’язали документ, який ствердно відповідає на ваше сміливе запитання, тож подумайте, що саме ви хотіли б дізнатися у відповіді, перш ніж запитувати.
Sycorax каже, що повернеться до Моніки

@Sycorax Посилання, яке я щойно додав, - це повідомлення в блозі, а не стаття, і тому я дуже скептично ставлюсь до позитивного погляду. Різноманітність інтерпретаційності, яку я запитую про DL в заголовку, я вважаю такою, що виділяється жирним шрифтом у тексті.
Мітч

Відповіді:


30

Інтерпретація глибоких моделей залишається складним.

  1. У вашій публікації згадуються лише CNN-програми для програм комп’ютерного зору, але (глибокі або неглибокі) мережі прямої подачі та періодичні мережі залишаються складними для розуміння.

  2. Навіть у випадку з CNN, які мають очевидні структури "детектора функцій", такі як краї та орієнтація піксельних патчів, не зовсім очевидно, як ці функції нижчого рівня агрегуються вгору, або що саме відбувається, коли ці функції бачення об'єднуються в повністю пов'язаний шар.

  3. Приклади змагань показують, наскільки складно тлумачити мережу. У змагальному прикладі до нього були внесені невеликі модифікації, але це призводить до кардинального зрушення у рішеннях, прийнятих моделлю. У контексті класифікації зображень невелика кількість шуму, доданого до зображення, може змінити зображення ящірки та мати впевнену класифікацію як іншої тварини, як (виду) собаки.

Це пов’язано з інтерпретацією в тому сенсі, що існує сильна, непередбачувана залежність між (малою) кількістю шуму та (великим) зрушенням рішення класифікації. Думаючи про те, як працюють ці мережі, має певний сенс: обчислення на попередніх шарах поширюються вперед, так що ряд помилок - невеликих, неважливих помилок для людини - збільшуються і накопичуються, оскільки все більше обчислень виконуються за допомогою "пошкоджені" входи.

З іншого боку, наявність змагальних прикладів свідчить про те, що інтерпретація будь-якого вузла як певної особливості чи класу є важкою, оскільки той факт, що вузол активований, може мати мало спільного з фактичним вмістом вихідного зображення, і що це відношення насправді не передбачуване з точки зору вихідного зображення. Але на наведених нижче прикладах зображень ніхто не обманюється щодо вмісту зображень: ви б не переплутали стовп прапора для собаки. Як ми можемо інтерпретувати ці рішення, або в сукупності (невеликий шум "перетворює" ящірку на собаку, або ж флагшток на собаку), або меншими шматками (що кілька детекторів функцій більш чутливі до картини шуму, ніж власне зображення зміст)?

HAAM - це багатообіцяючий новий метод генерування змагальних зображень за допомогою гармонічних функцій. ("Метод гармонійних змагальних нападів" Вень Хен, Шучан Чжоу, Тінгтінг Цзян.) Зображення, створені за допомогою цього методу, можуть використовуватися для імітації ефектів освітлення / тіні і, як правило, ще складніше для людини виявити, що вони були змінені.

Як приклад, див. Це зображення, взяте із " Універсальних змагальних збурень " Сеєда-Мохсена Мусаві-Дезфуолі, Альгуссейна Фаўзі, Омара Фаузі та Паскаля Фроссара. Я обрав це зображення лише тому, що це був один із перших змагальних образів, на які я натрапив. Це зображення встановлює, що певна схема шуму має дивний вплив на рішення щодо класифікації зображень, зокрема, ви можете внести невелику модифікацію вхідного зображення і змусити класифікатора думати, що результат - собака. Зауважте, що основний, оригінальний образ все ще очевидний: у всіх випадках людина не плутається у думці, що будь-який із зображень, які не є собаками, - це собаки. adversaria

Ось другий приклад з більш канонічного докладу , " ПОЯСНЕННЯ ТА ХАРНЕСІВНІ ДОПОМОЖНІ ПРИКЛАДИ " Ієна Дж. Гудфелло, Джонатана Шленса та Крістіана Сегеді. Доданий шум повністю не відрізняється в отриманому зображенні, проте результат дуже впевнено класифікується як неправильний результат, замість панди - гібона. У цьому випадку, принаймні, існує принаймні схожа схожість між двома класами, оскільки гібони та панди принаймні дещо біологічно та естетично схожі в широкому сенсі. панда

Цей третій приклад взято з " Узагальнюючих змагальних прикладів виявлення на основі невідповідності двомовного рішення " Жоан Монтеїро, Захід Ахтар та Тіаго Х. Фолк. Він встановлює, що модель шуму може бути невідрізною для людини, але все ще плутає класифікатор.невідмінна

Для довідки, мулатий - тварина темного кольору з чотирма кінцівками та хвостом, тому насправді не дуже нагадує золоту рибку. каламутний

  1. Я щойно знайшов цей документ. Крістіан Сегеді, Войцех Заремба, Ілля Суцкевер, Джоан Бруна, Думітру Ерхан, Ян Гудффел, Роб Фергюс. " Властиві властивості нейронних мереж ". Реферат включає цю інтригуючу пропозицію:

По-перше, ми виявляємо, що не існує різниці між окремими одиницями високого рівня та випадковими лінійними комбінаціями одиниць високого рівня, відповідно до різних методів одиничного аналізу. Це говорить про те, що саме простір, а не окремі одиниці містять смислову інформацію у високих шарах нейронних мереж.

Отже, замість того, щоб "детектори функцій" на вищих рівнях, вузли просто представляють координати в просторі функцій, які мережа використовує для моделювання даних.


2
Хороші бали. Але зауважте, що навіть у найпростіших моделях (логістика, дерева рішень) незрозуміло, чому саме такий конкретний коефіцієнт / threshild є (але це не та сама інтерпретація, про яку я питав). Чи не є абсолютно непов’язаними, чи є хороші змагальні дослідження / приклади для мови / RNN / LSTM?
Мітч

7
Я також хотів би зазначити, що навіть прості моделі, такі як логістична регресія, вразливі до змагальних атак. Насправді, Goodfellow та ін. ін. вказує, що це неглибокі моделі, які не мають можливості протистояти таким атакам. Але ми все ще стверджуємо, що можемо інтерпретувати логістичну регресію.
shimao

2
хороша відповідь, за винятком пункту 3, який суперечить з двох причин. 1) Дуже рідко буває так, що змагальний образ "для людини, який не відрізняється від немодифікованого зображення", якщо тільки у людини серйозні порушення зору. Майже завжди можна помітити, що до зображення додається якась схема шуму, особливо на задньому плані, естетично нагадує так званий JPEG-шум (лише візуально: фактичні статистичні властивості збурень різні). Дивно, що класифікатор не впевнений, чи це добросовісна кішка, а не, скажімо, пошкоджена 1 /
DeltaIV

2
2 / зображення, але це майже певне, що це автобус. 2) Як змагальні приклади пов'язані з інтерпретацією? Лінійні моделі, узагальнені лінійні моделі, а також дерева рішень є сприйнятливими до змагальних прикладів. Насправді простіше знайти змагальний приклад, який дурить логістичну регресію, а не той, який дурить ResNet. Незважаючи на це, ми зазвичай вважаємо (G) LM інтерпретаційною моделлю, тому я б не пов'язував існування змагальних прикладів з інтерпретацією моделі.
DeltaIV

3
@DeltaIV справа не в тому, що ви не можете помітити шум. Кожен jpeg, який занадто деградував, має шум. Справа в тому, що шумом можна маніпулювати, щоб змусити ДНН робити божевільні речі, які не мають сенсу для спостерігача людини, навіть якщо сам шум можна побачити.
Hong Ooi

13

Шари не відображають послідовно більш абстрактні функції так чисто, як ми хотіли б. Хороший спосіб це побачити - порівняти дві дуже популярні архітектури.

VGG16 складається з безлічі звивистих шарів, складених один на одного з випадковим шаром об'єднання - дуже традиційна архітектура.

З того часу люди перейшли до проектування залишкової архітектури, де кожен шар з'єднаний не тільки з попереднім шаром, але і з одним (або, можливо, більше) шарами далі в моделі. ResNet був одним із перших, хто зробив це, і має близько 100 шарів, залежно від того, який варіант ви використовуєте.

У той час як VGG16 та подібні мережі мають шари, які діють більш-менш інтерпретовано - вивчаючи функції вищого та вищого рівня, ResNets цього не робить. Натомість люди запропонували або тримати вдосконалення функцій, щоб зробити їх більш точними, або щоб вони були лише маскою неглибоких мереж у маскуванні , жодна з яких не відповідає "традиційним поглядам" на те, що вивчають глибокі моделі.

Хоча ResNet та подібні архітектури зручно перевершують VGG у класифікації зображень та виявленні об'єктів, але, здається, є деякі додатки, для яких проста ієрархія функцій знизу вгору дуже важлива. Дивіться тут для гарної дискусії.

Отже, враховуючи, що більш сучасні архітектури, схоже, більше не вписуються в картину, я б сказав, що ми не можемо повністю сказати, що CNN все ще є інтерпретаційними.


Імовірно, цілком непроектована / непроектована топологія мережі DL була б великим випадковим частковим упорядкованим набором, вводила датчики та виводила потрібну функцію (тобто взагалі ніякої спроби шарувати, нехай тренінг розбирається). Вузли тут були б дуже непереборними. Але хіба це не означає, що чим більше розроблена топологія, тим більше шансів на те, що вона має певну інтерпретацію?
Мітч

3
@Mitch Деякі недавні архітектури, такі як Densenet, здається, повільно повзуть до межі того, що кожен шар підключений до кожного іншого шару - так само, як і ваша "непроектована мережа". Але, безумовно, ResNet і Densenet мають більш досконалий дизайн, ніж VGG16, але можна сказати, що вони менш інтерпретовані - так що ні, я не думаю, що більше дизайну означає більш інтерпретаційне. Можливо, більш рідкісні з'єднання означають більш інтерпретаційне.
shimao

7

Темою моєї докторської дисертації було розкрити властивості нейромереж, зокрема нейронних мереж, що рухаються вперед, з одним або двома прихованими шарами.

Я візьму на себе завдання вияснити всім, що означають терміни ваги та зміщення в одношаровій нейронній мережі подачі вперед. Будуть розглянуті дві різні перспективи: параметрична та ймовірнісна.

Далі я припускаю, що всі вхідні значення, що надаються кожному вхідному нейрону, були нормалізовані на інтервал (0,1) шляхом лінійного масштабування ( ), де два коефіцієнти та вибираються для вхідної змінної, так що . Я роблю різницю між змінними в реальному числі та переліченими змінними (з булевою змінною як особливою переліченою змінною випадку):xinput=αx+βαβxinput(0,1)

  • Змінна з дійсною цифрою надається у вигляді десяткового числа між і після лінійного масштабування.01
  • Перерахована змінна кількість днів тижня (понеділок, вівторок тощо) представлена вхідними вузлами, при цьому - кількість вигідних результатів, тобто за кількість днів у тиждень.vv7

Таке представлення ваших вхідних даних потрібно для того, щоб можна було інтерпретувати (абсолютне значення) розмір ваг у вхідному шарі.

Параметричне значення:

  • чим більша абсолютна величина ваги між вхідним нейроном і прихованим нейроном, тим важливішою є ця змінна для "стрільби" цього конкретного прихованого вузла. Ваги, близькі до означають, що вхідне значення настільки ж добре, як і нерелевантне. 0
  • вага від прихованого вузла до вихідного вузла вказує на те, що зважена ампліфікація вхідних змінних, які в абсолютному сенсі найбільше посилюються цим прихованим нейроном, що вони сприяють або приглушують конкретний вихідний вузол. Знак ваги вказує на заохочення (позитивне) або гальмування (негативне).
  • третя частина, не явно представлена ​​в параметрах нейронної мережі, є багатофакторним розподілом вхідних змінних. Тобто, як часто трапляється, що значення надається для вхідного вузла - з дійсно великою вагою для прихованого вузла ?132
  • термін зміщення - це лише константа перекладу, яка зміщує середнє значення прихованого (або вихідного) нейрона. Він діє як зсув , представлений вище.β

Обґрунтування повернення вихідного нейрона : які приховані нейрони мають найвищі значення абсолютної ваги при їх з'єднанні з вихідними нейронами? Як часто активація кожного прихованого вузла стає близькою до (припускаючи функції активації сигмоїдів). Я говорю про частоти, виміряні на тренувальному наборі. Якщо бути точним: яка частота, з якою приховані вузли і , з великими вагами до вхідних змінних і , що ці приховані вузли і близькі до1iltsil1? Кожен прихований вузол по визначенню поширює середньозважене середнє значення своїх вхідних значень. З якими вхідними змінними кожен прихований вузол в першу чергу сприяє - або гальмує? Також пояснює багато, абсолютну різницю ваг між вагами, які випромінюють із прихованого вузла до двох вихідних вузлів і .Δj,k=∣wi,jwi,kijk

Чим важливіші приховані вузли - це вихідний вузол (розмовляємо по частотах, над навчальним набором), які «вхідні ваги вхідні частоти» є найбільш важливими? Тоді ми зупиняємося на значенні параметрів нейронних мереж подачі вперед.

Імовірнісна інтерпретація:

Імовірнісна перспектива означає розглядати класифікацію нейронної мережі як класифікатора Байєса (оптимального класифікатора з теоретично визначеним найнижчим коефіцієнтом помилок). Які вхідні змінні впливають на результат нейронної мережі - і як часто? Розглядайте це як імовірнісний сенсивітаційний аналіз. Як часто зміна однієї вхідної змінної може призвести до різної класифікації? Як часто вхідний нейрон має потенційний вплив на те, який результат класифікації стає найбільш імовірним, маючи на увазі, що відповідний вихідний нейрон досягає найвищого значення?xinput

Індивідуальний випадок - шаблон

Коли зміна введеного нейронного нейрона може призвести до зміни найбільш ймовірної класифікації, ми говоримо, що ця змінна має потенційний вплив . При зміні результатів перерахованої змінної (зміна буднього дня з понеділка до вівторка або будь-який інший будній день) ), і найімовірніші зміни результату, то перелічена змінна може мати потенційний вплив на результат класифікації.xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]

Коли ми зараз враховуємо ймовірність цієї зміни, тоді ми говоримо про очікуваний вплив . Яка ймовірність спостереження за змінною вхідною змінною такою, що вхідний регістр змінює результат, враховуючи значення всіх інших входів ? Очікуване вплив відноситься до очікуваного значення , з , а саме . Тут - вектор усіх вхідних значень, крім входу . Майте на увазі, що перелічена змінна представлена ​​низкою вхідних нейронів. Ці можливі результати тут розглядаються як одна змінна. x i n p u t E ( x i n p u tx - i n p u t ) x - i n p u t x i n p u txinputxinputE(xinputxinput)xinputxinput

Глибокий нахил - і значення параметрів NN

Застосовуючи комп'ютерний зір, нейронні мережі показали помітний прогрес за останнє десятиліття. Конволюційні нейронні мережі, запроваджені Лекуном в 1989 році, виявилися в кінцевому підсумку дуже успішними в розпізнаванні зображень. Повідомлялося, що вони можуть перевершити більшість інших підходів до розпізнавання, заснованих на комп'ютері.

Цікаві властивості, що виникають, з'являються під час підготовки конволюційних нейронних мереж, що навчаються для розпізнавання об'єктів. Перший шар прихованих вузлів представляє низькорівневі детектори функцій, подібні до операторів масштабного простору Т. Ліндеберга, Виявлення функцій з автоматичним підбором масштабу, 1998 . Ці оператори масштабного простору виявляють

  • лінії,
  • кути,
  • Т-переходи

та деякі інші основні функції зображення.

Ще цікавіше те, що на перших етапах (біологічної) обробки зображень було показано, що перцептивні нейрони у мозку ссавців нагадують такий спосіб роботи. Так із CNN, наукове співтовариство закривається у тому, що робить сприйняття людини настільки феноменальним. Це робить дуже вагомим продовжувати цей напрямок досліджень далі.


Це цікаво - чи не здається, що це дало б велику інтерпретацію у випадку співвіднесених ознак?
хол

Очікувана величина E (.) Також відома як середня величина умовного розподілу, x_вхідна дані x_введення, всі інші змінні. Отже, кореляції повністю включені в цю очікувану концепцію впливу. Зауважимо, що ймовірнісна незалежність має більш широке визначення, ніж "кореляція" - остання визначається насамперед для розподілених даних Гаусса.
Match Maker EE

Приємно. Чи таке узагальнення інтерпретації логістичної регресії на набір моделей регресії, одна подача на наступну?
Мітч

Підмножина прихованих вузлів може виступати як логічне "АБО" для вихідного нейрона, або більше схоже на логічне "І". АБО виникає тоді, коли одного активації прихованого вузла достатньо, щоб змусити вихідний нейрон стати близьким до 1. І виникає, коли лише сума прихованих активацій вузла може призвести до того, що активація вихідного вузла стає близькою до 1. Чи більше "АБО" чи більше " І ', що залежить від тренованого вагового вектора «вентилятора в», у вихідний вузол.
Match Maker EE
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.