Швидкий відповідь
Коли Intel придбала Nirvana, вони висловили свою переконання, що аналог VLSI має місце в нейроморфних мікросхемах найближчого майбутнього 1, 2, 3 .
Чи це через здатність легше експлуатувати природний квантовий шум в аналогових схемах, поки що не публічно. Це швидше через кількість та складність функцій паралельної активації, які можна упакувати в єдиний чіп VLSI. Аналог має в цьому відношенні переваги величини перед цифровими.
Імовірно, вигідно членам AI Stack Exchange прискорити цей чітко виражений розвиток технології.
Важливі тенденції та не тренди в ШІ
Щоб підійти до цього питання науково, найкраще протиставити теорію аналогового та цифрового сигналів без упередженості тенденцій.
Любителі штучного інтелекту можуть багато чого знайти в Інтернеті про глибоке навчання, вилучення функцій, розпізнавання зображень та бібліотеки програмного забезпечення для завантаження та негайно розпочати експерименти. Це спосіб, коли більшість змочують ноги за допомогою технології, але швидке введення AI має і свою сторону.
Коли теоретичні засади раннього успішного розгортання споживчого інтелекту не зрозуміли, формуються припущення, що суперечать цим фондам. Важливі варіанти, такі як аналогові штучні нейрони, шиповидні мережі та відгуки в реальному часі, не помічаються. Вдосконалення форм, можливостей та надійності поставлено під загрозу.
Ентузіазм у розвитку технологій завжди повинен бути придушений принаймні рівною мірою раціональної думки.
Конвергенція та стабільність
У системі, де точність і стабільність досягаються за допомогою зворотного зв'язку, і аналогові, і цифрові значення сигналу завжди є просто оцінкою.
- Цифрові значення в алгоритмі, що сходяться, або, точніше, стратегії, призначеної для конвергенції
- Значення аналогового сигналу в стабільній робочій схемі підсилювача
Розуміння паралельності між конвергенцією через виправлення помилок у цифровому алгоритмі та стабільністю, досягнутою за допомогою зворотного зв’язку в аналоговому приладі, є важливим при обдумуванні цього питання. Це паралелі з використанням сучасного жаргону, з цифровим зліва та аналогом праворуч.
┌──────────────────────────────────────────────────── ─────────────┐
│ * Цифрові штучні мережі * │ * Аналогові штучні мережі * │
├──────────────────────────────────────────────────── ─────────────┤
│ Поширення вперед │ Первинний шлях сигналу │
├──────────────────────────────────────────────────── ─────────────┤
Function Функція помилок function Функція помилок │
├──────────────────────────────────────────────────── ─────────────┤
Конвергентний │ стабільний │
├──────────────────────────────────────────────────── ─────────────┤
│ Насичення градієнта │ Насичення на входах │
├──────────────────────────────────────────────────── ─────────────┤
Function Функція активації function Функція передачі вперед │
└──────────────────────────────────────────────────── ─────────────┘
Популярність цифрових мікросхем
Основним фактором зростання популярності цифрових мікросхем є його стримування шуму. Сьогоднішні цифрові схеми VLSI мають тривалий середній час до відмови (середній час між випадками, коли виникає неправильне значення біта).
Віртуальне усунення шуму дало цифровій схемі значну перевагу перед аналоговою схемою для вимірювання, PID-контролю, обчислення та інших застосувань. За допомогою цифрової схеми можна вимірювати до п'яти десяткових цифр точності, контролювати з надзвичайною точністю і обчислювати від π до тисячі десяткових цифр точності, повторно та надійно.
Бюджети авіації, оборони, балістики та контрзаходів, насамперед, підвищили виробничий попит для досягнення економії на масштабах у виробництві цифрових мікросхем. Попит на роздільну здатність дисплея та швидкість візуалізації спонукає використовувати GPU як цифровий процесор сигналу.
Чи багато в чому економічні сили викликають найкращий вибір дизайну? Чи найкраще використання штучних мереж на цифровому рівні найкраще використовувати дорогоцінну нерухомість VLSI? Це виклик цього питання, і він хороший.
Реалії складності ІС
Як згадується в коментарі, потрібні десятки тисяч транзисторів, щоб реалізувати в кремнію незалежний, багаторазовий штучний мережний нейрон. Це багато в чому через множення вектор-матриці, що веде в кожен активаційний шар. Потрібно лише кілька десятків транзисторів на штучний нейрон, щоб здійснити множення на вектор-матрицю та шаровий масив операційних підсилювачів. Операційні підсилювачі можуть бути розроблені для виконання таких функцій, як двійковий крок, сигмоїд, софт плюс, ELU та ISRLU.
Цифровий шум сигналу від округлення
Цифрова сигналізація не має шуму, оскільки більшість цифрових сигналів є округлими і, отже, наближеними. Насичення сигналу в зворотному розповсюдженні спочатку з'являється як цифровий шум, що утворюється внаслідок цього наближення. Подальше насичення відбувається, коли сигнал завжди округлюється до того ж бінарного подання.
vекнN
v = ∑Nn = 01н2k + e + N- н
Програмісти іноді стикаються з ефектами округлення в подвійних або одноточних числах з плаваючою точкою IEEE, коли відповіді, які, як очікується, становитимуть 0,2, відображаються як 0.20000000000001. Одну п'яту не можна представити з ідеальною точністю як двійкове число, оскільки 5 не є коефіцієнтом 2.
Наука над медіа-шумом та популярними тенденціями
Е= m c2
У машинному навчанні, як і у багатьох технологіях, є чотири ключові показники якості.
- Ефективність (що сприяє швидкості та економії використання)
- Надійність
- Точність
- Зрозумілість (що сприяє ремонтопридатності)
Іноді, але не завжди, досягнення одного компрометує іншого, і в цьому випадку потрібно досягти балансу. Градієнтний спуск - це стратегія конвергенції, яка може бути реалізована за допомогою цифрового алгоритму, який добре врівноважує ці чотири, тому це є домінуючою стратегією в навчанні багатошарового персептрону та в багатьох глибоких мережах.
Ці чотири речі були основними для ранньої роботи в кібернетиці Норберта Вінера до появи перших цифрових схем у Bell Labs або першого фліп-флопа, здійсненого вакуумними трубами. Термін кібернетика походить від грецького κυβερνήτης (вимовляється kyvernítis ), що означає штурман , де руль і вітрила повинні були компенсувати постійно мінливий вітер і струм, і корабель, необхідний для сходження на призначений порт або гавань.
Погляд цього питання може спричинити те, що VLSI можна досягти для досягнення економії масштабу для аналогових мереж, але критеріями, поданими його автором, є уникнення тенденцій перегляду. Навіть якби це не було, як було сказано вище, для створення штучних мережевих шарів з аналоговою схемою потрібно значно менше транзисторів, ніж з цифровими. З цієї причини правомірно відповісти на питання, припускаючи, що аналог VLSI є дуже можливим за розумну ціну, якщо увага буде спрямована на його виконання.
Аналоговий дизайн штучної мережі
Аналогові штучні мережі досліджуються у всьому світі, включаючи спільне підприємство IBM / MIT, Intel Nirvana, Google, ВВС США ще в 1992 році 5 , Tesla та багато інших, деякі з яких зазначені в коментарях та додатках до цього питання.
Інтерес до аналогу для штучних мереж пов'язаний з кількістю функцій паралельної активації, які беруть участь у навчанні, може відповідати квадратному міліметру нерухомості чіпа VLSI. Це багато в чому залежить від того, скільки потрібно транзисторів. Матриці ослаблення (матриці навчальних параметрів) 4 потребують множення на вектор-матрицю, що вимагає великої кількості транзисторів і, таким чином, значної частини нерухомості VLSI.
У базовій багатошаровій персептронній мережі повинно бути п'ять незалежних функціональних компонентів, якщо вона повинна бути доступна для повністю паралельної підготовки.
- Помноження на вектор-матрицю, яке параметризує амплітуду поширення вперед між функціями активації кожного шару
- Збереження параметрів
- Функції активації для кожного шару
- Збереження виходів шару активації для застосування у зворотному розповсюдженні
- Похідна функцій активації для кожного шару
В аналоговій схемі з більшим паралелізмом, притаманним способу передачі сигналу, 2 і 4 можуть не знадобитися. Теорія зворотного зв'язку та гармонійний аналіз будуть застосовані до схеми конструкції, використовуючи тренажер типу Spice.
Для врахування вартості рівняння може з розумною точністю передбачити вартість продукту VLSI як функцію від стандартної вартості упаковки VLSI cp, функція, що представляє собівартість як функцію обсягу виробництва c ( ∫г ), функція швидкості виробництва як функція часу і витрат r ( t , c ), час т, собівартість, ширина кожного мережевого шару індексу i для Я шарами шi, кількість транзисторів на аттенюатор 4 τp, а також кількість транзисторів на активацію та її похідні ланцюги τа і τг відповідно.
c = cpc ( ∫r ( t , c )гt )( ∑Я- 2i = 0( τpшiшi - 1+ τашi+ τгшi) + τашЯ- 1+ τгшЯ- 1)
Для загальних значень цих мікросхем у поточних аналогових інтегральних схемах у нас є вартість аналогових мікросхем VLSI, яка з часом конвергується на значення, щонайменше на три порядки нижче, ніж цифрові мікросхеми з еквівалентним навчальним паралелізмом.
Безпосередня адресація введення шуму
Питання зазначає: "Ми використовуємо градієнти (якобійські) або моделі другого ступеня (Гессіана) для оцінки наступних кроків у конвергентному алгоритмі та навмисне додавання шуму [або] впорскування псевдовипадкових збурень для підвищення надійності конвергенції, вискакуючи локальні свердловини з помилкою поверхня під час конвергенції ".
Причина, що псевдо випадковий шум вводиться в алгоритм конвергенції під час навчання та в мережі реального часу (наприклад, мережі підкріплення), через наявність локальних мінімумів на поверхні невідповідності (похибки), які не є глобальними мінімумами цього поверхня. Глобальні мінімуми - це оптимально навчений стан штучної мережі. Місцеві мінімуми можуть бути далеко не оптимальними.
Ця поверхня ілюструє функцію помилок параметрів (два у цьому дуже спрощеному випадку 6 ) та питання локальних мінімумів, що приховують існування глобальних мінімумів. Низькі точки поверхні представляють мінімуми в критичних точках локальних районів оптимальної конвергенції тренувань. 7,8
Функції помилок - це просто показник невідповідності між поточним станом мережі під час тренінгу та бажаним станом мережі. Під час навчання штучним мережам мета - знайти глобальний мінімум цієї нерівності. Така поверхня існує, незалежно від того, чи є вибіркові дані маркованими чи не маркованими та чи є критерії завершення навчання внутрішніми чи зовнішніми для штучної мережі.
Якщо швидкість навчання невелика, а початковий стан знаходиться на початку простору параметрів, конвергенція, використовуючи градієнтне спускання, сходиться до самої лівої свердловини, що є локальним мінімумом, а не глобальним мінімумом праворуч.
Навіть якщо фахівці, які ініціалізують штучну мережу для навчання, досить розумні, щоб вибрати середню точку між двома мінімумами, градієнт у цій точці все ще нахиляється до лівого мінімуму, і конвергенція прийде до неоптимального стану навчання. Якщо оптимальність навчання є критичною, як це часто є, навчання не зможе досягти результатів якості виробництва.
Одним із застосованих рішень є додавання ентропії до процесу конвергенції, що часто є просто введенням ослабленого виходу генератора псевдовипадкових чисел. Інше рішення, яке рідше використовується, - це розгалуження навчального процесу та спробу введення великої кількості ентропії у другий конвергентний процес, щоб паралельно відбувся консервативний пошук та дещо дикий пошук.
Це правда, що квантовий шум в надзвичайно малих аналогових схемах має більшу рівномірність спектру сигналу від його ентропії, ніж цифровий псевдовипадковий генератор, і для досягнення більш високої якості шуму потрібно набагато менше транзисторів. Чи були подолані проблеми, пов'язані з цим впровадженням VLSI, ще належить розкрити дослідницькими лабораторіями, вбудованими в уряди та корпорації.
- Чи будуть такі стохастичні елементи, які використовуються для введення вимірюваних кількостей випадковості для підвищення швидкості та надійності тренувань, будуть достатньо захищені від зовнішнього шуму під час тренувань?
- Чи будуть вони достатньо захищені від внутрішнього крос-розмови?
- Чи виникне попит, який знизить витрати на виробництво VLSI достатньо, щоб досягти точки більшого використання поза високофінансовими науково-дослідними підприємствами?
Усі три виклики правдоподібні. Що певно, а також дуже цікаво, це те, як дизайнери та виробники полегшують цифровий контроль аналогових сигнальних шляхів та функцій активації для досягнення високої швидкості навчання.
Виноски
[1] https://ieeexplore.ieee.org/abrief/document/8401400/
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age
[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820
[4] Під загасанням йдеться про множення виходу сигналу від одного приводу на треймерний перемір, щоб забезпечити додавання, яке підсумовується для інших для введення в активацію наступного шару. Хоча це фізичний термін, він часто використовується в електротехніці, і це відповідний термін для опису функції множення векторно-матричної матриці, яка досягає того, що в менш освічених колах називають зважуванням вхідних шарів.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf
[6] У штучних мережах є набагато більше, ніж два параметри, але на цій ілюстрації зображено лише два, оскільки графік може бути зрозумілим лише у 3-D, і нам потрібен один із трьох вимірів для значення функції помилки.
[7] Визначення поверхні:
z= ( х - 2 )2+ ( у- 2 )2+ 60 - 401 + ( у- 1.1 )2+ ( х - 0,9 )2√- 40( 1 + ( ( у- 2.2 )2+ ( х - 3,1 )2)4)
[8] Пов'язані команди gnuplot:
set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
- 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
- 40 / (1+(y-2.2)**2+(x-3.1)**2)**4