Що таке * штучна нейронна мережа?

15

Коли ми заглиблюємось у літературу про нейронні мережі , ми дістаємо ідентифікацію інших методів з нейроморфними топологіями ("Нейромережеві" архітектури). І я не кажу про теорему універсального наближення . Приклади наведені нижче.

Потім мене змушує замислитися: що таке визначення штучної нейронної мережі? Здається, його топологія охоплює все.

Приклади:

Однією з перших ідентифікацій, які ми робимо, є між PCA та лінійним автокодером із прив’язаними вагами в кодері та декодері та пороговими активаціями у шарі вузького місця.

Крім того, загальна ідентифікація проводиться між лінійними моделями (логістична регресія у спеціальних) та нейронною мережею без прихованого шару та єдиного вихідного шару. Ця ідентифікація відкриває кілька дверей.

Серії Фур'є та Тейлора? АНН . SVM ? АНН. Гауссовий процес? ANN (з одним прихованим шаром з нескінченними прихованими одиницями).

Отже, так само легко ми можемо включити до рамки нейронної мережі довільні регульовані версії зі спеціалізованими функціями втрат цих алгоритмів.

Але чим більше ми копаємо, тим більше подібності з’являється. Я щойно наткнувся на глибокі дерева нейронних рішень , що робить ідентифікацію конкретної архітектури ANN з деревами рішень, дозволяючи їм вивчити методи ANN (наприклад, зворотне розповсюдження Gradient Descent). З цього ми можемо побудувати випадкові ліси та посилені градієнтами дерева рішень виключно з топологій нейронної мережі.

Якщо все можна виразити як штучну нейронну мережу, що визначає штучну нейронну мережу?

— Firebug
джерело

Цей документ про Глибокі Нейронні Дерева рішень досить далеко. Зазвичай функції активації - це функції з реальною цінністю, а не зовнішні продукти. Таким чином, вони насправді не обговорюють ANN, як ми зазвичай думаємо про них, а математичне узагальнення, яке не використовується широко чи прийнято. Якщо показ ANN відрізняється від дерева рішень, я просто зазначу, що всі ANN параметричні (мають кінцевий простір параметрів), тоді як дерева не параметричні (мають потенційно нескінченний простір параметрів.)

— olooney

@olooney Продукт Kronecker - це не функція активації, це просто операція на виходах попереднього шару (наприклад, згортка або будь-яка інша операція, яку ми визначаємо над активаціями). DNDT може представляти будь-яке дерево рішень, а кожен DNDT може бути представлений деревом рішення.

— Firebug

1

@olooney за вашим визначенням функції активації, Softmax не є функцією активації.

— Firebug

2

Я не зовсім впевнений, що розумію мотивацію цього питання. Можливе, вільне визначення ANN полягає в тому, що це спрямована графічна модель, яка використовує нейрони (тобто функції активації) для обробки входів / виходів, і більшу частину часу ви використовуєте градієнтний спуск для його тренування. Коли ви говорите, що "все можна виразити як ANN", ви конкретно запитуєте, чи існує точне відображення між згаданими іншими моделями та ANN? Проблема полягає в тому, що вам доведеться придумувати дуже модифіковані навчальні процедури, щоб відповідати оптимізаціям.

— Алекс Р.

1

@Sycorax Я також це роблю, і він, і Хінтон натякали на це. Я хочу надати можливість відповідати в іншому таборі, щоб надати достовірні джерела :)

— Firebug

6

Юрген Шмідхубер, " Глибоке навчання в нейронних мережах: огляд " простежує історію ключових понять у нейронних мережах та глибокому навчанні. На його думку, нейронні мережі, по суті, охоплюють будь-яку модель, яку можна охарактеризувати як спрямований графік, де кожен вузол являє собою деяку обчислювальну одиницю. Шмідхубер є видатним дослідником нейронних мереж і написав оригінальний документ про мережі LSTM разом із Сеппом Хохрейтером.

Які змінні компоненти навчальної системи відповідають за її успіх чи провал? Які зміни до них покращують продуктивність? Це було названо основною проблемою присвоєння кредиту (Мінський, 1963). Існують загальні методи присвоєння кредиту універсальним рішенням проблем, які є оптимальними за часом у різних теоретичних сенсах (Розд. 6.8). Цей огляд, однак, буде зосереджений на вузькому, але тепер комерційно важливому підполі глибокого навчання (DL) у Штучних нейронних мережах (NNs).

Стандартна нейронна мережа (NN) складається з безлічі простих, пов'язаних між собою процесорів, званих нейронами, кожен з яких створює послідовність дійсних цінностей активацій. Вхідні нейрони активізуються через датчики, що сприймають навколишнє середовище, інші нейрони активізуються за допомогою зважених з'єднань з раніше активними нейронами (деталі в розділі 2). Деякі нейрони можуть впливати на навколишнє середовище, викликаючи дії. Навчання чи присвоєння кредиту - це пошук ваг, завдяки яким NN виявляє бажану поведінку, наприклад, за кермом автомобіля. Залежно від проблеми та того, як пов'язані нейрони, така поведінка може зажадати довгих причинних ланцюгів обчислювальних стадій (Розділ 3), де кожна стадія перетворює (часто нелінійним способом) сукупну активацію мережі. Глибоке навчання - це точне призначення кредиту на багатьох таких етапах.

Неглибокі NN-подібні моделі з кількома такими етапами існували вже багато десятиліть, якщо не століття (Розділ 5.1). Моделі з декількома послідовними нелінійними шарами нейронів сягають принаймні 1960-х років (Розд. 5.3) та 1970-х років (Розділ 5.5). Ефективний метод спуску градієнтів для наглядового навчання на основі викладачів у дискретних, диференційованих мережах довільної глибини, званих зворотним розмноженням (ВР), був розроблений у 1960-х та 1970-х роках і застосований до НН у 1981 році (Розділ 5.5). Навчання на основі ВР для глибоких мереж з багатьма шарами, проте, було виявлено, що на практиці складно на кінці 1980-х (Розділ 5.6), і стало явним предметом дослідження на початку 1990-х (Розділ 5.9). DL стала певною мірою практично можливою завдяки непідконтрольному навчанню (UL), наприклад, сек. 5.10 (1991), розд. 5.15 (2006). У 1990-х та 2000-х рр. Також відбулося багато вдосконалень суто під наглядом DL (Розділ 5). У новому тисячолітті глибокі НН нарешті привернули широку увагу, головним чином, перевершивши альтернативні методи машинного навчання, такі як машини ядра (Vapnik, 1995; Scholkopf et al., 1998) у багатьох важливих сферах застосування. Насправді, починаючи з 2009 року, контрольовані глибокі мережі виграли багато офіційних міжнародних змагань з розпізнавання образів (наприклад, розділи 5.17, 5.19, 5.21, 5.22), досягнувши перших надлюдських результатів розпізнавання візуального візерунка в обмежених областях (розд. 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчальної підготовки (RL), де немає викладача, що здійснює нагляд (Секція 6). головним чином, перевершуючи альтернативні методи машинного навчання, такі як машини ядра (Vapnik, 1995; Scholkopf et al., 1998) у багатьох важливих сферах застосування. Насправді, починаючи з 2009 року, контрольовані глибокі мережі виграли багато офіційних міжнародних змагань з розпізнавання образів (наприклад, розділи 5.17, 5.19, 5.21, 5.22), досягнувши перших надлюдських результатів розпізнавання візуального візерунка в обмежених областях (розд. 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчальної підготовки (RL), де немає викладача, що здійснює нагляд (Секція 6). головним чином, перевершуючи альтернативні методи машинного навчання, такі як машини ядра (Vapnik, 1995; Scholkopf et al., 1998) у багатьох важливих сферах застосування. Насправді, починаючи з 2009 року, контрольовані глибокі мережі виграли багато офіційних міжнародних змагань з розпізнавання образів (наприклад, розділи 5.17, 5.19, 5.21, 5.22), досягнувши перших надлюдських результатів розпізнавання візуального візерунка в обмежених областях (розд. 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчальної підготовки (RL), де немає викладача, що здійснює нагляд (Секція 6). досягнення першого надлюдського візуального розпізнавання образів призводить до обмежених областей (Секція 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчального навчання (RL), де немає викладача, що здійснює нагляд (Секція 6). досягнення першого надлюдського візуального розпізнавання образів призводить до обмежених областей (Секція 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчального навчання (RL), де немає викладача, що здійснює нагляд (Секція 6).

З іншого боку, я не впевнений, що намагатися вибудувати таксономію взаємовиключних відер для стратегій машинного навчання обов'язково вигідно. Я думаю, що можна сказати, що є перспективи, з яких моделі можна розглядати як нейронні мережі. Я не думаю, що перспектива не є найкращою чи корисною у будь-якому контексті. Наприклад, я все ще планую називати випадкові ліси та дерева, що підсилюють градієнти, як "ансамблі дерев", а не абстрагувати їхні відмінності та називати їх "деревами нейронної мережі". Більше того, Шмідхубер відрізняє NN від машин ядра - навіть якщо машини ядра мають певні зв'язки з NN - коли він пише: "У новому тисячолітті глибокі NN нарешті привернули широку увагу, головним чином, перевершуючи альтернативні методи машинного навчання, такі як машини ядра ... у багатьох важливих сферах застосування. "

— Sycorax каже, що відновіть Моніку
джерело

Отже, в основному кожна модель та евристика, відома сьогодні в машинному навчанні та статистиці, вважатиметься АНН від Шмідхубера, причому відмінна номенклатура надається просто стратегією оптимізації (включаючи моделі, де тут немає оптимізації)?

— Firebug

1

Я розумію, що з практичної точки зору, але це не змінює того факту, що майже кожна модель є, власне кажучи, ANN (я не можу придумати жодної, яка є такою).

— Firebug

2

@Firebug Як би ви переформатували регресію або (прості k-засоби та інші) проблеми кластеризації, які навчаються або розміщуються у «навчальному середовищі», таким чином, щоб вони були рівними цьому визначенню ANN?

— Секст Емпірік

1

@Firebug Я не бачу, як той факт, що PCA може виявитись еквівалентним конкретному автокодеру, робить PCA "нейронною мережею". У стандартних PCA ми навіть не використовуємо градієнтне спускання.

— амеба каже, що повернеться до Моніки

1

@Firebug Якщо ви визначите "NN" як "підключені обчислювальні вузли", я думаю, будь-які обчислення є NN. Не впевнений, що це корисно, але добре.

— амеба каже, що повернеться до Моніки

7

Якщо ви хочете отримати базове визначення ANN, ви можете сказати, що це спрямована графічна модель, де входи та виходи обробляються на кожному вузлі за допомогою функції активації, а більша частина спуску градієнта часу використовується для його навчання. Тож справді виникає питання: які моделі там можна виразити як графічні моделі?

Я не експерт, але я вважаю, що теоретично деякі АНН можуть бути показані як Тьюрінг завершеними, а це означає, що вони повинні мати можливість робити будь-який можливий набір розрахунків (з можливою нескінченною кількістю ресурсів, пам'ятайте).

Я також буду тлумачити ваше питання наступним чином:

Чи можу я в будь-якій моделі зв'язати ANN-модель, щоб імітувати цю модель якомога ближче та за розумну кількість часу?

Нейронна мережа ванілі може імітувати дерево рішення, використовуючи важкі крокові активації. Проблема полягає в тому, що такі активації блоку мають нульовий градієнт, тому нормальний спуск градієнта не буде працювати. Ви можете сказати: "немає проблем, просто використовуйте модифіковану форму спуску градієнта". Однак цього все одно недостатньо. Для кращого прикладу візьміть щось на кшталт XGBOOST, що не є лише лісами, що підсилюють градієнти. Існує ціла маса додаткової роботи, яка полягає у виборі розділених точок, обрізці, оптимізації швидкості тощо. Можливо, після достатньої кількості модифікацій ви зможете зробити аналогічний зовнішній вигляд ANN, але зовсім не ясно, що такий ANN виконає щонайменше як ну, ні якщо це оптимізовано для виконання роботи.

$f(x)=e^{x}$

— Алекс Р.
джерело

2

Дякую за відповідь! Щодо питання -

"For any given model, can I slap together an ANN model to emulate that model, as close as possible, and in a reasonable amount of time?"

- я боюся сказати, що це не суть. Справа в тому, що топологія ANN є настільки загальною, що, здається, охоплює все, а стратегія оптимізації, здається, не зможе визначити, що є, а що не ANN. Тому питання, що визначає ANN? Тому що в іншому випадку все є, певним чином, ANN, вираженим іншими словами.

— Firebug

1

"A vanilla neural network can emulate a decision tree, by using heaviside step-activations. The problem is that such unit activations have zero gradient, so normal gradient descent won't work. You might say, "no problem, just use a modified form of gradient descent." However, that's still not enough. [...]"

- Як ми могли стверджувати, оптимізація не є визначальним фактором для визначення того, що становить ANN. Якщо ви можете записати кожне дерево рішень як нейронну мережу (і ми можемо це зробити), тоді ми можемо сміливо сказати, що DT є (типом) NN, тоді як зворотне не відповідає дійсності.

— Firebug

"If you want a basic definition of an ANN, you might say that it's a directed-graphical-model, where inputs and outputs are processed at each node via an activation function, and most of the time gradient descent is used to train it. So the question really becomes: what models out there can be expressed as graphical models?"

- Я згоден з цим. Тоді "Нейронна мережа" може бути інтерпретована як найбільш загальний клас моделей, можливо, лише менш загальний, ніж "Графічні моделі", який є набором як Ненаправлених, так і спрямованих моделей графіків. Можливо, ви могли б детальніше зупинитися на цьому;)

— Firebug

2

Можливо, більш точна назва для ANN - це "диференційовані мережі", тобто складні параметризовані функції, які можна оптимізувати за допомогою градієнтного спуску або його варіанту. Це дуже загальне визначення, яке підкреслює диференційованість, але нічого не говорить про основні ідеї, завдання, для яких він підходить, що лежать в основі математичної бази тощо.

Зауважимо, що диференційованість є рисою, не обов'язковою головною. Наприклад, SVM може бути навчений за допомогою градієнтного спуску і таким чином виявляє властивості нейронної / диференційованої мережі, але головна ідея полягає в розділенні даних за допомогою гіперпланів. Варіаційний автокодер використовує MLP для кодера та декодера, але функція, яку ви оптимізуєте, походить з байєсівської статистики тощо.

Існує також кілька моделей, які часто називають нейронними мережами, але не використовують GD для навчання. Хороший приклад - УЗМ. Я здогадуюсь, що мітка "нейронна мережа" була прикріплена до неї здебільшого з історичних причин - врешті-решт, творцем RBM є Джеффрі Хінтон, а Хінтон - хлопець нейронної мережі, правда? Однак, якщо проаналізувати модель, ви побачите, що структура RBM є мережею Маркова, функція витрат на основі енергії походить від статистичної фізики початку 20-го століття, а вибірка MCMC / Gibbs розвивалася паралельно і повністю незалежно від нейронних мереж .

— подруга
джерело

2

Навчання на основі градієнтів, безумовно, відіграло роль в успіху ANN. Але я не вважаю, що диференційованість є важливою для визначення, оскільки деякі АНН не є диференційованими. Наприклад, найперший ANN (модель McCulloch-Pitts) використовував двійкові порогові одиниці. Поточна тема дослідження - як виконати навчання в недиференційованих АНН, таких як шипучі сітки. Або, припустимо, ми починаємо з типової, диференційованої ANN, але потім заявляємо, що хочемо мінімізувати недиференційовану функцію втрат. Це вже не ANN?

— користувач20160

Саме тому я запропонував альтернативне визначення, яке охоплює подачу, рекуррентну, рекурсивну, згорнуту мережу, автокодери, VAE, GAN, увагу та багато інших моделей, які ми зазвичай називаємо "нейронними мережами", але виключає, наприклад, підходи, засновані на імітації людського мозку або обширний відбір проб через PGM. Станом на 2018 рік ці підходи справді різні, вони використовують різні методи оптимізації, різні бібліотеки тощо (хоча я не можу придумати кращу назву, ніж "нейронна мережа" для шипучих мереж, оскільки, на відміну від CNN або RNN, насправді імітують людину мозок).

— подруга

1

Я можу спробувати постулювати деякі речі, які допомагають визначити нейронну мережу.

Обчислювальний графік з регульованими параметрами.
Зазначені параметри можна налаштувати так, щоб вони відповідали даним (реальним або імітованим).
Об'єктивна функція, яка повинна бути оптимізована, бере участь неявно або явно. Він може бути глобальним або локальним за параметрами.

Я впевнений, що це стосується всіх нейронних мереж, які часто використовуються сьогодні, а також деяких езотеричних.

Це агресивно для оптимізації (якби ми наклали градієнтну оптимізацію, тоді розвинені мережі не були б нейронними мережами).

Тут не згадуються нейрони / вузли чи шари (деякі нейронні мережі сьогодні навряд чи описані цими термінами), але я думаю, що ми могли б це включити і бути трохи більш обмежуючими.

— Firebug
джерело