Чому моделі машинного навчання називають чорними скриньками?


40

Я читав цю публікацію в блозі під назвою: Фінансовий світ хоче відкрити чорні скриньки AI , де автор неодноразово називає моделі ML як "чорні скриньки".

Подібна термінологія була використана в декількох місцях при посиланні на моделі ML. Чому так?

Це не так, як інженери ML не знають, що відбувається всередині нейронної мережі. Кожен шар вибирається інженером ML, знаючи, яку функцію активації використовувати, що робить цей тип шару, як повертається помилка назад тощо.


4
Щось дещо тонке: інженер ML знає всю структуру - скільки шарів, функції активації тощо. Те, що вони не знають, - це самі ваги. Але модель ML настільки визначається його вагами, що оцінку моделі за допомогою конкретного набору ваг не можна (в даний час) інтерпретувати, пояснювати або розуміти людиною, навіть експертами, які повністю розуміють структуру.
isaacg

Трохи актуальне: stats.stackexchange.com/a/297476/100456
Мігель

3
@isaacg - інженер з МЛ може легко дізнатися, що таке ваги. Чорна скринька має більше спільного з тим, що не знаю, чому ваги такі, якими вони є, і до чого ці ваги відносяться в реальному світі. Тому вона ще більш тонка.
Джош

Ще одне пов'язане питання: datascience.stackexchange.com/q/33524/53479
mapto

Відповіді:


51

Справа з чорною скринькою не має нічого спільного з рівнем знань аудиторії (доки аудиторія людина), але з поясненням функції, змодельованої алгоритмом машинного навчання.

У логістичній регресії існує дуже просте співвідношення між входами та виходами. Іноді можна зрозуміти, чому певний зразок був неправильно каталогізований (наприклад, через те, що значення певного компонента вхідного вектора було занадто низьким).

Те саме стосується дерев рішень: ви можете слідувати логіці, застосованій деревом, і зрозуміти, чому певний елемент був присвоєний одному чи іншому класу.

Однак глибокі нейронні мережі є парадигматичним прикладом алгоритмів чорного поля. Ніхто, навіть навіть найдосвідченіша людина у світі не розуміє функції, яка насправді моделюється навчанням нейронної мережі. Розуміння цього можуть бути надані змагальними прикладами : деяка незначна (і непомітна людиною) зміна навчального зразка може змусити мережу думати, що вона належить до зовсім іншої мітки. Існують деякі прийоми створення змагальних прикладів, а також деякі методи для поліпшення стійкості проти них. Але враховуючи, що ніхто насправді не знає всіх відповідних властивостей функції, що моделюється мережею, завжди можна знайти новий спосіб їх створення.

Люди також є чорними скриньками, і ми також чутливі до змагальних прикладів .


2
Логіку дерев рішень можна дотримуватися теоретично , але вона часто не є практичною. Я не бачу, де принципова різниця з НН.
Мігель

До речі, я використовував і бачив використаний чорний ящик з точки зору відсутності досвіду / інтересу до вивчення навіть основ використовуваного інструменту.
Мігель

4
"Але з огляду на те, що ніхто насправді не знає функції, яку моделює мережа". Це неправильно / фразується погано. Якби ми не знали, яка саме функція була змодельована, ми не могли б ні їх тренувати, ні використовувати для прогнозування. Ми точно знаємо , яка функція моделюється. Ми не знаємо (усі) відповідних властивостей цього. А функція складна. Але це зовсім інше твердження.
Мартін Тома

1
@MartinThoma погодився та оновився.
ncasas

1
(+1) Але ж нитчастий. Логістична регресія не дає завдання класу, вона лише намагається оцінити умовні ймовірності. Дітто з правильно використаним деревом класифікації. Завдання класу накладаються людьми, яким потрібно приймати рішення, а не самими алгоритмами ML.
Меттью Друрі

18

Хоча я погоджуюсь відповіді ncasas у більшості пунктів (+1), я прошу погодитися з деякими:

  • Дерева рішень також можуть використовуватися як моделі чорних коробок. Насправді, я б сказав, що в більшості випадків вони використовуються як моделі чорних коробок. Якщо у вас є 10 000 функцій і дерево глибиною 50, ви не можете розумно очікувати, що людина це зрозуміє.
  • Нейронні мережі можна зрозуміти. Існує багато методик аналізу (див. Розділ 2.5 моєї магістерської роботи, деякі з яких спрямовані на вдосконалення моделі). Особливо оклюзійний аналіз (мал. 2.10), візуалізація фільтру (мал. 2.11). Крім того , чому я повинен вам довіряти? папір ( мої замітки ).

Пояснення прогнозу чорно-скринькової моделі методом фантазійного оклюзії (з "Чому я тобі довіряю?"): введіть тут опис зображення

Я хотів би зазначити «Міфос про інтерпретабельність моделі» . Він формулює деякі ідеї щодо інтерпретації стисло.

Твоє запитання

Чому моделі машинного навчання називають чорними скриньками?

Як люди його використовують : Тому що вони не моделюють проблему таким чином, що дозволяє людям безпосередньо говорити, що відбувається з будь-якого даного введення.

Особисті думки

Я не думаю, що це поняття "моделі чорної коробки" має багато сенсу. Наприклад, подумайте про прогнозування погоди. Ви не можете сподіватися, що хтось скаже, яка погода буде прогнозована, якщо йому нададуть лише дані. Однак більшість людей не сказали б, що фізичні моделі погоди - це моделі з чорного ящика. То де різниця? Чи лише той факт, що одна модель була створена за допомогою даних, а інша була створена за допомогою розуміння фізики?

Коли люди говорять про чорні моделі коробки, вони зазвичай говорять це так, ніби це погано. Але люди теж є моделями чорної коробки. Критична різниця, яку я бачу тут, полягає в тому, що клас помилок, які роблять люди, простіше передбачити для людей. Отже, це проблема навчання (неблагополучні приклади з боку NN) та проблема освіти (навчання людей роботі НН).

Як слід використовувати термін «модель чорної скриньки» : Підхід, який має для мене більше сенсу, - це називати проблему «проблемою чорної скриньки», подібно до того, що пише user144410 (+1). Отже, будь-яка модель, яка розглядає проблему лише як чорну скриньку - отже, щось, що можна внести і внести вихід, - це модель чорної коробки. Моделі, які мають уявлення (не тільки припускають!) Про проблему, не є моделями з чорного ящика. Оглядова частина хитра. Кожна модель обмежує можливу функцію, яку може моделювати (так, я знаю про проблему універсального наближення. Поки ви використовуєте NN фіксованого розміру, це не застосовується). Я б сказав, що щось є розумінням проблеми, якщо ви знаєте щось про взаємозв'язок введення та виводу, не задаючи проблему (не дивлячись на дані).

Що випливає з цього:

  • Нейронні мережі можуть бути не чорними (біла скринька?)
  • Логістична регресія може бути моделлю чорних коробок.
  • Це більше про проблему та ваші уявлення про неї, менше про модель.

1
Дякую. Ваші відповіді завжди приємно читати :)
Dawny33

1
Запрошуємо вас :-) І дякую за приємні слова :-) Будь ласка, прийміть мою відповідь на ваше запитання із зерном солі. Я теж не надто впевнений у цьому. Я не думаю, що однозначної відповіді немає, тому що люди використовують слово, не маючи для нього визначення. Тож, з одного боку, використання між людьми, ймовірно, різне, а з іншого боку, навіть окрема людина не може використовувати її завжди однаково.
Мартін Тома

7

Це зводиться до інтерпретаційності та поясненості моделі. З огляду на вихід простішої моделі, можна точно визначити, як кожен вклад сприяє виходу моделі, але це стає складніше, оскільки моделі стають складнішими. Наприклад, за допомогою регресії ви можете вказати на коефіцієнти, за допомогою дерева рішень ви можете ідентифікувати розбиття. І за допомогою цієї інформації ви можете отримати правила для пояснення поведінки моделі.

Однак у міру збільшення кількості параметрів моделі стає все важче пояснити, які саме комбінації вхідних даних призводять до виходу остаточної моделі, або виводять правила з поведінки моделі. Скажіть у фінансовій галузі, коли керівник управління приходить і запитує "так, чому ваш високочастотний торговий альго порушив економіку", він не хоче чути, як він був побудований, тільки чому він послав його в банкрутство. Можна буде констатувати, як була побудована модель, але, можливо, неможливо пояснити, які комбінації факторів, які модель отримала як вхід, призвели до виходу, і саме тому люди говорять про чорні скриньки.


5

Моделі чорної скриньки стосуються будь-яких математичних моделей, рівняння яких обрані максимально загальними та гнучкими, не покладаючись на будь-які фізичні / наукові закони.

Моделі сірого ящика - це математичні моделі, де частина рівнянь (математична функція) походить від відомих фізичних законів, а інша частина бере на себе загальну функцію для компенсації незрозумілої частини.

Моделі білого ящика - це математичні моделі, повністю побудовані на фізичних законах та розумінні системи, як, наприклад, механічні закони руху (модель літальних апаратів .. і т.д.)

Дивіться: https://en.wikipedia.org/wiki/Mathematical_model#A_priori_information


Цікаве визначення! Розглянемо кілька прикладів: логістична регресія, SVM, NN, дерева decion - все це моделі чорного поля. Залежно від контексту, байєсові моделі можуть бути у всіх трьох категоріях. Погодні моделі - це білосніжні або сірі коробки.
Мартін Тома

Я повинен не погодитися з цією відповіддю. Ви малюєте відмінність між емпіричними моделями та моделями на основі фізичної теорії. Однак будь-який тип моделі може бути білою або чорною коробкою, залежно від того, як вона упакована.
Брайан Борчерс

Термін "чорний ящик" позначається на основі "справжньої" системи і пов'язаний з проблемою вибору структури моделі.
користувач144410

"Сучасний термін" чорний ящик ", схоже, увійшов до англійської мови близько 1945 року. В теорії електронних схем процес синтезу мережі від функцій передачі, що призвів до того, що електронні мікросхеми розглядаються як" чорні скриньки ", що характеризуються їх реакцією на застосовані сигнали до їхніх портів, їх можна простежити до Вільгельма Кауера, який опублікував свої ідеї у найбільш розвиненому вигляді у 1941 році ... "Джерело: en.wikipedia.org/wiki/Black_box#History
user144410

4

Як ви знаєте, чорна скринька посилається на функцію, де ви знаєте підпис входів і виходів, але не можете знати, як вона визначає виходи з входів.

Вживання цього терміна в цьому випадку неправильно сформульовано неправильно. Це може бути вищим за бажання чи здатність автора / автора знати та розуміти моделі ML, але це не означає, що це виходить за рамки готовності чи можливостей інших. Інженери, які створюють кожну модель ML, точно знають, як вона працює, і можуть за бажанням підняти дерево рішень і пройти його. Тільки тому, що хтось може бути лінивим або це може зайняти деякий час, це не означає, що інформація не є доступною для споживання.

Моделі ML - це не чорні коробки, це чіткі коробки, які просто дуже великі.


3

Інженери МЛ не знають, що відбувається всередині нейронної мережі

Вибачте, що вам суперечать, але це правда. Вони знають, як навчаються нейронні мережі, але не знають, чого навчилася будь-яка нейронна мережа. Логіка, засвоєна нейронними мережами, є сумно непереборною.

Сенс використання машинного навчання зазвичай полягає в тому, щоб засвоїти правила, про які програміст або експерт з домену не придумав би. Це по суті важко з'ясувати.

Це аналог звичайній комп'ютерній програмі, написаній з іменами змінної однієї літери, без коментарів, без очевидної структури, використовуючи незрозумілу математику, і все тим, хто зараз мертвий. Ви можете перейти через нього в налагоджувач, але це ще далеко не зрозуміло, як це працює.

Рідко хтось не заважає зрозуміти, що робить нейромережа. Наприклад, алгоритм міні-конфліктів був виявлений шляхом аналізу нейронної мережі, підготовленої до задачі N-королів . Але це багато роботи.


Те саме можна сказати і в деяких лінійних методах, наприклад, PCA, просто формула в DL є більш складною.
Мігель

3

У публікації блогу, цитованій у запитанні, дискусія йде про те, що експерти, які розробляють моделі машинного навчання у фінансах, не можуть пояснити своїм клієнтам (фінансистам, які не навчаються машинному навчанню), як модель приймає рішення, які вона робить .

Це виявляє відмінність між моделями, які є чорними скриньками через інформацію, яка є справді секретною (наприклад, коефіцієнти закодовані в FPGA, захищеній від несанкціонованого захисту), і відкритими моделями (у сенсі, що коефіцієнти відомі), але не зрозумілими для конкретна аудиторія .

Цей останній вид "чорної скриньки" є проблематичним, оскільки клієнти хочуть переконати себе, що модель, яку ви сконструювали, має "чинність". З іншими типами моделей, таких як Logistic Regression, порівняно легко подивитися на коефіцієнти та перевірити, чи мають вони очікувані знаки плюс або мінус - навіть математично неграмотна MBA може це зрозуміти.


2

Машинне навчання можна по праву вважати чорними скриньками, рішення для проблеми XOR з використанням нейронних мереж можна моделювати, але в міру збільшення кількості входів зростає складність і розміри. Якщо це занадто складно, щоб зрозуміти та пояснити, то це чорна скринька, чи можемо ми обчислити результати чи ні

Ми можемо сприймати їх лише до 3 вимірів, але цього достатньо, оскільки ми можемо екстраполювати цей вище розмір, використовуючи 3d-модель як орієнтир. Ми можемо уявити локальні мінімуми, а також частини наборів даних, які частково вивчені.

Я деякий час грав з цією ідеєю, і тому я створив анімацію нейронних мереж на роботі та покращив своє розуміння нейронних мереж. Я створив анімацію з 1 та 2 прихованими шарами (3-й здебільшого робиться) і як вони вивчають дані.

Анімація повільна, а верхню праву анімацію, що показує верхні шари, варто переглянути, ви можете пришвидшити анімацію на Youtube, якщо вам подобається, значні зміни можна побачити у верхній правій анімації із синьою та червоною сіткою о 3:20 у помаранчевому та Червона сітка за 6 хвилин, а синя, помаранчева та червона - о 8:20. Напрямки зміни ваги, очевидно, є в нижній лівій анімації

https://www.youtube.com/watch?v=UhQJbFDtcoc


1

Я думаю, що концепція чорної скриньки , що використовується таким чином, походить від тестування чорної скриньки в забезпеченні якості програмного та апаратного забезпечення. Це коли ви вирішили не / або навіть не можете заглянути і побачити внутрішню роботу того, що ви протестуєте. Це може бути з тієї причини, що це було б

  1. недоцільно або неможливо зазирнути в нього (це знаходиться в герметичному середовищі, і ми просто не можемо в нього заглянути) - Але це може бути

  2. тому що є більший шанс написати хитрі тести, якщо можна побачити всередині. Більший ризик (з наміром або без) "написання тестів, призначених для здачі".

Складання тесту, щоб відповідати тестуванню, що знижує шанси насправді знайти щось.

Досвідченому інженеру-сигналісту було б цілком можливо зазирнути у внутрішню роботу нейронної мережі та перевірити, які функції вибираються для певної навчальної послідовності.


-1

Методи чорної скриньки важко пояснити «непосвяченим». Будь-хто у галузі фінансів чи інших галузей може зрозуміти основи регресії або навіть дерева рішень. Почніть говорити про гіперплани векторів підтримки машин та сигмоподібні функції нейронної мережі, і ви втратите більшість аудиторій

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.