Які моделі мають потенціал замінити нейронні мережі найближчим часом?

10

Чи можливі моделі, які мають можливість замінити нейронні мережі найближчим часом?

І нам це навіть потрібно? Що найгірше у використанні нейронних мереж з точки зору ефективності?

neural-networks convolutional-neural-networks recurrent-neural-networks

— Абакус
джерело

4

Це йде назад, але це наче слід логіки аргументів.

З точки зору ефективності я бачу кілька основних проблем з класичними нейронними мережами.

Збір та попередня обробка даних

Великі нейронні мережі потребують багато даних для навчання. Сума може змінюватися залежно від розміру мережі та складності завдання, але, як правило, вона пропорційна кількості ваг. Для деяких контрольованих навчальних завдань просто недостатньо високоякісних маркованих даних. Збір великої кількості спеціалізованих даних про навчання може зайняти місяці або навіть роки, а маркування може бути громіздким і недостовірним. Це може бути частково пом’якшене доповненням даних, що означає "синтезувати" більше прикладів із тих, які у вас уже є, але це не панацея.

Час навчання проти компромісу з енергією

Швидкість навчання зазвичай досить мала, тому прогрес навчання повільний. Велика модель, яка може зайняти кілька тижнів для тренування на настільному процесорі, може бути навчена, скажімо, за дві години, використовуючи кластер GPU, який споживає кілька кВт енергії. Це принциповий компроміс через характер навчальної процедури. Однак, графічні процесори стають все більш ефективними - наприклад, нова архітектура GPU nVidia Volta дозволяє використовувати 15,7 TFLOP, споживаючи менше 300 Вт.

Непереносимість

Зараз практично кожна інша проблема потребує проектування, навчання та розгортання спеціальної нейронної мережі. Хоча рішення часто працює, воно начебто замикається на цій проблемі. Наприклад, AlphaGo є блискучим на Go, але це було б безнадійно при керуванні автомобілем або наданні музичних рекомендацій - він просто не був розроблений для таких завдань. Ця переважна надмірність, на мій погляд, є головним недоліком нейронних мереж, а також загалом перешкоджає прогресу досліджень нейронної мережі загалом. Існує ціла дослідницька область, яка називається трансферним навчаннямде йдеться про пошук способів застосування мережі, навченої на одному завданні, до іншого завдання. Часто це стосується того, що може бути недостатньо даних для навчання мережі з нуля на другому завданні, тому можливість використовувати заздалегідь підготовлену модель з додатковою настройкою дуже приваблива.

Перша частина питання є більш хитрою. Залишаючи осторонь статистичні моделі, я не бачив чітких підходів до машинного навчання, які кардинально відрізняються від нейронних мереж. Однак є кілька цікавих подій, які варто згадати, оскільки вони стосуються деяких з вищевказаних неефективностей.

Нейроморфні стружки

Спочатку трішки тла.

Колосні нейронні мережі мають величезний потенціал з точки зору обчислювальної потужності. Насправді було доведено, що вони суворо потужніші, ніж класичні нейронні мережі з сигмоподібною активацією.

До цього додається, що нейромережі, що шипляться, мають внутрішнє розуміння часу - те, що стало головною перешкодою для класичних мереж з моменту їх створення. Не тільки це, але і шипучі мережі керуються подіями , а значить, нейрони працюють лише за наявності вхідного сигналу. Це на відміну від класичних мереж, де кожен нейрон оцінюється незалежно від його вкладу (знову ж таки, це лише наслідок процедури оцінювання, яка зазвичай реалізується як множення двох щільних матриць). Таким чином, у мережах шипування використовується схема розрідженого кодування, що означає, що лише невелика частка нейронів активна в будь-який момент часу.

Тепер розріджене кодування на основі шипа та керована подіями операція підходять для апаратних реалізацій шипових мереж, званих нейроморфними чіпами . Наприклад, мікросхема TrueNorth IBM може імітувати 1 мільйон нейронів і 256 мільйонів з'єднань, при цьому черпаючи в середньому лише близько 100 мВт потужності. Це на порядок ефективніше, ніж нинішні GPU nVidia. Нейроморфні мікросхеми можуть бути рішенням тренінгу часу / енергії, про який я згадував вище.

Також мемрістори є порівняно новою, але дуже перспективною розробкою. По суті, мемфістор - це основний елемент схеми, дуже схожий на резистор, але зі змінним опором, пропорційним загальній кількості струму, який пройшов через нього протягом усього його життя. По суті, це означає, що він підтримує «пам’ять» кількості струму, який пройшов через нього. Одним із захоплюючих потенційних застосувань мемрісторів є моделювання синапсів в апараті надзвичайно ефективно.

Підкріплення навчання та еволюція

Я думаю, що це варто згадати, оскільки вони є перспективними кандидатами для вирішення проблеми непереносимості. Вони не обмежуються лише нейронними мережами - керуючись нагородами, RL та еволюція теоретично застосовні в загальній обстановці до будь-яких завдань, де можна визначити винагороду або мету, яку повинен досягти агент. Це необов'язково робити банально, але це набагато загальніше, ніж звичайний підхід, керований помилками, коли навчальний агент намагається мінімізувати різницю між результатами та основними істинами. Основний момент тут полягає у передачі навчання: в ідеалі застосування навченого агента до іншого завдання повинно бути таким же простим, як і зміна мети чи винагороди (хоча вони ще не зовсім на цьому рівні), хоча ...).

— кантордуст
джерело

"Суворо потужніше", - це пише Маас у своїй роботі 1996 року, проте він стверджує, що математична суворість і не вдається визначити обчислювальну потужність. Крім того, у 1996 р. Було написано, коли функції активації сигмоїдів були популярними, чого зараз немає, саме тому, що вони не сходяться для великої кількості сценаріїв так само надійно або так швидко, як простіші функції активації. У статті Маас лише два рази згадує про конвергенцію і не вказує, як відбувається конвергенція, що ще більше підкреслює відсутність визначення обчислювальної потужності з точки зору цілей машинного навчання.

— Fauhhristian

Зв'язок між RL та еволюцією незрозумілий. Ви маєте на увазі якусь комбінацію генетичного алгоритму та РЛ? Якщо так, то яка довідка?

— Fauhhristian

@FauChristian Навіть якщо ви не прочитаєте цілий документ, то визначення обчислювальних можливостей передбачено в рефераті (друге речення):

In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.

— cantordust

@FauChristian Sigmoid активації ще дуже живі та брикаються. Наприклад, LSTM використовують сигмоїдні активатони для воріт, softmax (нормалізовані сигмоїди) все-таки найкраще, що ми маємо для класифікації на багато класів і т. Д. "Простіші" активації не обов'язково кращі - оригінальний ReLU ( max(0, x)) дуже небезпечний застрягання x < 0, що призводить до відмерлих нейронів. У будь-якому випадку, мова йде про обчислювальну потужність шипових сіток та їх надвиефективну технічну реалізацію з точки зору енергоспоживання.

— cantordust

@FauChristian Я не веду паралелей між RL та еволюцією. Я наводжу їх як приклади багатообіцяючих підходів до подолання певного типу неефективності, а саме про необхідність розробки рішення (будь то НН чи щось інше) для кожної окремої проблеми. В ідеалі, ви повинні мати можливість спроектувати загальний вирішувач, який автоматично налаштовується RL та / або еволюцією для конкретної проблеми, що базується виключно на високому рівні.

— cantordust

1

Заміна нейронних мереж

Можуть існувати нові алгоритми, які можуть замінити нейронні мережі. Однак однією з особливостей нейронних мереж є те, що вони використовують прості елементи, кожен з яких має низькі вимоги до обчислювальних ресурсів за геометричними візерунками.

Штучні нейрони можна запускати паралельно (без поділу часу або циклічного процесора) шляхом зіставлення обчислень на пристрої DSP або інше обладнання для паралельних обчислень. Те, що багато нейронів по суті однакові, є сильною перевагою.

Що б ми замінили?

Розглядаючи алгоритмічні заміни нейронних мереж, ми маємо на увазі, що нейронна сітка - це алгоритм. Це не так.

Нейронна сітка - це підхід до конвергенції в ланцюзі реального часу для здійснення нелінійного перетворення вводу у вихід на основі певної формулювання того, що є оптимальним. Таке формулювання може бути мінімізацією міри помилки або невідповідності від певного визначеного ідеалу. Це може бути міра оздоровлення, яка повинна бути максимальною.

Джерело визначення придатності для будь-якої поведінки мережі може бути внутрішнім. Ми називаємо це непідвладним навчанням. Це може бути зовнішня, яку ми називаємо контрольованою, коли зовнішня інформація про придатність поєднується з вхідними векторами у вигляді бажаних вихідних значень, які ми називаємо мітками.

Фітнес може також виникати зовні як скаляр або вектор, не поєднаний із вхідними даними, а скоріше в реальному часі, який ми називаємо підкріпленням. Для цього потрібні алгоритми навчання повторного вступу. Чиста поведінкова придатність може альтернативно оцінюватися іншими мережами в системі, у випадку складених мереж або інших конфігурацій, таких як ієрархії Лаплаціа.

Вибір алгоритмів має мало спільного з порівняльним інтелектом після вибору математичної та технологічної конструкцій. Дизайн алгоритму більш безпосередньо пов'язаний з мінімізацією вимог до обчислювальних ресурсів та скороченням часу. Ця мінімізація також залежить від апаратного забезпечення та операційної системи.

Чи зазначається заміна?

Звичайно. Було б краще, якби мережі були більше схожі на нейрони ссавців.

Вишуканість активації
Гетерогенність моделей зв'язку
Пластичність дизайну для підтримки мета-адаптації
Керується багатьма вимірами регіональної сигналізації

Під регіональною сигналізацією мається на увазі безліч хімічних сигналів поза передачею сигналу через синапси.

Можна навіть розглянути можливість виходу за межі неврології ссавців.

Поєднання параметричного та на основі гіпотез навчання
Вивчення форми, що використовується, коли мікроби передають ДНК

Нейронна чиста ефективність

Ефективність не може бути кількісно оцінена в деякій універсальній шкалі, оскільки температуру можна оцінити в градусах Кельвіна. Ефективність може бути оцінена лише як коефіцієнт деякої вимірюваної величини над деяким теоретичним ідеалом. Зауважте, що в знаменнику це ідеал, а не максимум. У термодинамічних двигунах ідеальною є швидкість введення енергії, яку ніколи не можна повністю передати на вихід.

Так само нейронні мережі ніколи не можуть вчитися за нульовий час. Нейронна сітка також не може досягти нульової помилки протягом довільно тривалого часу у виробництві. Тому інформація в чомусь схожа на енергію, концепція, яку досліджував Клод Шеннон з Bell Labs під час зорі цифрової автоматизації, і зв’язок між інформаційною ентропією та термодинамічною ентропією зараз є важливою частиною теоретичної фізики.

Не може бути поганої ефективності навчання або хорошої ефективності навчання. Не може бути ні поганої продуктивності, ні хорошої продуктивності, якщо ми хочемо продумати логічно та науково, - лише відносне поліпшення деякої конфігурації системи щодо якоїсь іншої конфігурації системи для дуже конкретного набору сценаріїв продуктивності.

Тому без однозначної специфікації двох конфігурацій апаратного забезпечення, операційної системи та програмного забезпечення та повністю визначеного тестового набору, що використовується для відносної оцінки, ефективність не має сенсу.

— Дуглас Дазееко
джерело

1

У нас є якась надія, що ховається на цьому фронті. На сьогодні у нас є капсульні мережі Дж. Хінтона, які використовують іншу нелінійну активацію, яку називають функцією "сквош".

Хінтон називає максимальне об'єднання в CNN "великою помилкою", оскільки CNN шукає лише об'єкти присутності на зображенні, а не відносну орієнтацію між ними. Таким чином вони втрачають просторову інформацію, намагаючись досягти інваріантності перекладу.
Нейронні мережі мають фіксовані з'єднання, тоді як капсула в капсульній мережі «вирішує», якій іншій капсулі вона має пройти активацію протягом кожної епохи. Це називається "маршрутизація".
Активація кожного нейрона в нейронних мережах є скалярною. Тоді як активація капсули - це вектор, що фіксує позу та орієнтацію предмета на зображенні.
CNN вважаються поганими уявленнями про зорову систему людини. Під зоровою системою людини я маю на увазі очі та мозок / пізнання разом. Ми могли ідентифікувати Статую Свободи з будь-якої пози, навіть якщо ми подивилися на неї з однієї пози. CNN у більшості випадків не може виявити один і той же об'єкт у різних позах та орієнтаціях.

Самі капсульні мережі мають деякі недоліки. Таким чином, була робота в напрямку пошуку за межі нейронних сіток. Ви можете прочитати цей блог для гарного розуміння, перш ніж прочитати статті Дж. Хінтона.

— варш
джерело

0

Нейронні мережі потребують великої кількості даних та навчання. Для більшості наборів даних у форматі таблиць набагато краще використовувати моделі на основі дерева рішень. Більшу частину часу досить простих моделей, щоб надати хорошу точність. Однак нейронні мережі мали свій тест на час. Минуло лише п'ять-шість років з моменту початку революції глибокого навчання, тому ми досі не знаємо справжньої потенції глибокого навчання.

— riemann77
джерело