Якщо цифрові значення - це просто оцінки, то чому б не повернутися до аналогового для AI?

18

Поштовх до переходу ХХ століття з аналогової на цифрову схему був зумовлений прагненням до більшої точності та зниження шуму. Зараз ми розробляємо програмне забезпечення, де результати приблизні, а шум має позитивне значення.

У штучних мережах ми використовуємо градієнти (якобіанські) або моделі другого ступеня (Гессіана) для оцінки наступних кроків у конвергентному алгоритмі та визначення прийнятних рівнів неточності та сумнівів. ¹
У стратегіях конвергенції ми свідомо додаємо шум , вводячи випадкові чи псевдовипадкові збурення для підвищення надійності, по суті вискакуючи локальні мінімуми на поверхні оптимізації під час конвергенції. ²

Те, що ми приймаємо та свідомо впроваджуємо в сучасних системах AI, - це ті самі речі, які привели електроніку до цифрової схеми.

Чому б не повернутися до аналогових схем нейронних мереж і не реалізувати їх за допомогою операційних матриць підсилювача замість матриць елементів цифрової обробки сигналів?

Значення параметрів навчання штучних мереж можна підтримувати за допомогою інтегрованих конденсаторів, заряджених за допомогою перетворювачів D-A-A, таким чином, що засвоєні стани можуть отримати користь від цифрової точності та зручності, тоді як поширення вперед має переваги від аналогових переваг.

Більша швидкість ³
На порядок менше транзисторів для представлення мережевих комірок
Природний тепловий шум ⁴

Наукова стаття або пошук патенту аналогових штучних мереж виявляє багато роботи за останні сорок років, і тенденція досліджень зберігається. Обчислювальні аналогові схеми добре розвинені і служать основою для нейронних масивів.

Чи може поточна одержимість цифровими обчисленнями затьмарити загальний погляд на архітектурні варіанти AI?

Чи є гібридним аналогом найкраща архітектура для штучних мереж?

Виноски

[1] PAC (можливо, приблизно коректний) Рамка навчання пов’язує прийнятну помилку $\epsilon$ та прийнятний сумнів $\delta$ до розміру вибірки, необхідного для навчання для конкретних типів моделі. (Зауважимо, що $1 - \epsilon$ являє собою точність і $1 - \delta$ - впевненість у цій рамці.)

[2] Стохастичний градієнтний спуск показаний, коли застосовуються відповідні стратегії та гіперпараметри, щоб швидше сходитися під час навчання та стає найкращою практикою у типових реальних умовах застосування штучних мереж.

[3] Процесор Intel Core i9-7960X працює зі швидкістю турбо 4,2 ГГц, тоді як стандартне супутникове мовлення - 41 ГГц.

[4] Тепловий шум може бути отриманий на кремнію шляхом посилення та фільтрування витоку електронів через зворотно зміщені ценерові діоди в його лавинній точці. Джерелом квантових явищ є тепловий шум Джонсона-Найкіста. Sanguinetti та ін. ін. констатують у своєму "Квантовому генеруванні випадкових чисел на мобільному телефоні" (2014): "Детектор можна моделювати як канал втрат з ймовірністю передачі η, а потім перетворювач фотона в електрон з ефективністю одиниці ... виміряний розподіл буде бути поєднанням квантової невизначеності та технічного шуму ", і там працює JTWPA CalTech. І те, і інше може стати стандартами для створення справді недетермінованого квантового шуму в інтегральних схемах.

Список літератури

— Фахристиянин
джерело

1

Я б заперечував, що ти щось наводиш. Є певні зусилля, щоб AI вкласти аналогові мікросхеми (я думаю, що Apple може щось робити з iphone). Я не впевнений, скільки проведено досліджень, але я впевнений, що можна знайти десь білий папір. Це, безумовно, варто вивчити. Мій прогноз полягає в тому, що незабаром можуть з’явитися програмовані мікросхеми AI, які мають задану кількість входів і виходів (начебто регістри шин).

— Zakk Diaz

Це не повна відповідь, але я підозрюю, що головне питання - це вартість. Друковані схеми дуже дешеві за масштабом, і все ще досить дорогі невеликими партіями. Дискретні графічні процесори вже масово виробляються і працюють «досить добре». Аналоговий чіп зазвичай може добре виконати лише одне завдання, і бажані моделі швидко змінюються. Дискретний чіп може бути запрограмований на багато різних речей. Якщо ми знайдемо «найкращу» топологію для ANN, можливо, буде сенс зробити аналогові мікросхеми ще раз.

— Джон Дучетт

1

Ого. Мій перший день на цьому сайті, і я знайшов когось, хто зі мною ділиться думкою. :-D

6

Я думаю, є різні причини. Перш за все: гнучкість. За допомогою сучасних процесорів та графічних процесорів ви можете сконструювати майже кожну модель AI, яку ви хочете, і в будь-якому розмірі та складності, яку ви хочете. Як ви можете бути впевнені, що модель, яку ви зараз використовуєте, все-таки підходить через кілька років? Можливо, в найближчі кілька років відбудеться великий прорив НН? Можливо, деякі вчені вважають, що існує спосіб кращого способу розвитку ШІ, ніж з НН, генетичними алгоритмами і т. Д. Звичайні чіпи можуть впоратися з усім цим, і вони можуть впоратися з ним досить добре. Але якщо ви хочете оптимізувати його та не турбуватися про гроші, ви можете розробити спеціалізовану архітектуру (це вже роблять різні компанії, що дає значне збільшення швидкості для конкретних завдань).

Причина номер два: масове виробництво. Я маю на увазі, що компанії можуть з часом виробляти високо інтегровані аналогові компоненти AI (скажімо, наприклад, NN-чіпи). Але це була б більша інвестиція. Досить незрозуміло, чи можна досить гнучкі блоки, щоб стати серйозною апаратною альтернативою AI, легко виготовлятись у масовому виробництві, що може конкурувати з процесорами та графічними процесорами. Особливо останні оптимізовані для великого паралельного обчислення. І якщо ви спостерігаєте за розвитком подібних до GPU архітектур (може робити мало речей, але дуже добре), які додатково оптимізовані для машинного навчання, ви можете побачити, що це була б жорстка конкуренція для аналогових одиниць.

Все вищесказане не означає, що в цій галузі немає досліджень. Існує кілька експериментів, які намагаються цього досягти, але вони ще не є "небезпечними" для звичайних архітектур. Врешті-решт, вони прийдуть у майбутньому, коли ми краще зрозуміємо інтелектуальний інтелект та інтелект та просто намагаємось підправити, але я досить скептично ставлюсь до цього.

EDIT: Крім того, щось також належить до гнучкості: Ви можете краще експериментувати з алгоритмами AI, що працюють на «звичайному» цифровому обладнання. Наприклад, ви можете легко перевірити NN в певних місцях, ви можете швидко змінити вхідні дані або надати альтернативні дані, ви дійсно ні до чого не зобов'язані. А оскільки ми все ще не знаємо і не розуміємо кожної моделі повністю, коли її використовувати, якщо є кращі архітектури для певного завдання тощо, не має сенсу ставити щось «молоде» та «експериментальне» у фіксований аналог архітектури.

— Бен
джерело

Незважаючи на те, що економія масштабу (чистий обсяг виробництва) сьогодні надає перевагу цифровому, це не було у 1980-х роках, а багато хто не у 2040-х роках. Аналог дешевший транзистором. В ядрі CUDA на потоку є 128 000 транзисторів і лише 40 транзисторів у мультиплексованому підсилювачі. Що ще важливіше, питання є теоретичним - що має найбільший технологічний сенс, а не те, що є економічним при сучасному стані економіки VLSI. Якщо є якась закономірність, яку ми можемо побачити в технології за останні 100 років, це те, що сьогодні нормальним є музейний предмет завтра. - Читання вимог щодо щедрості може допомогти.

— Fauhhristian

Але хіба це не подібне в цьому сценарії? Масово розвиваючи це обладнання зараз не має сенсу економного, але не технологічного. Ми просто недостатньо знаємо.

— Бен

Якщо "ми" є членом AI Stack Exchange, є сильна тенденція до того, що вже було реалізовано в популярних бібліотеках Python. Але уряди та великі корпорації, схоже, зацікавлені у шипучих мережах та аналогових VLSI, наприклад, USAF та Intel. Існує поштовх лабораторій з робототехніки до аналогових, і нейрокогнітивні дослідники вважають, що ANN не гідні середини N. Справжній нейрон в тисячі разів складніший за функцію ReLU. Що стане домінуючим для якої програми, незрозуміло, але це не те саме, що недостатньо знати для обговорення варіантів.

— Fauhhristian

Можливо, ви прочитали слово "чисто" у питанні. Жодне з досліджень, що тривають, не передбачає чистого аналогу, набір циферблатів замість клавіатур та CRT замість LCD. Усі останні пропозиції в літературі та в активному розвитку VLSI відповідають чітко зрозумілій парадигмі: Моделювати програмований (не фіксований) аналог, який може вивчити програму, як цифрові штучні мережі, а потім реалізувати в кремнію, не знімаючи програмованості чи можливостей навчання. Сигнали в реальному часі можуть бути аналоговими, цифровими або обома, але загальний контроль мікросхеми є цифровим, як у GPU або DSP.

— Fauhhristian

Період щедрості незабаром закінчиться, і чи має сенс аналогове навчання, оскільки воно може скористатися легкодоступним квантовим шумом, ще не розглядається у цій відповіді. Прогноз не позначався питанням. Крім того, величезний бюджет, який, здається, орієнтований на аналогові обчислення перцептронів, згортки та шипучих мереж, може дуже добре переважати, але лише в тому випадку, якщо довгострокова життєздатність є раціональною. Таким чином питання.

— Фахристиян

6

Швидкий відповідь

Коли Intel придбала Nirvana, вони висловили свою переконання, що аналог VLSI має місце в нейроморфних мікросхемах найближчого майбутнього ^{1, 2, 3} .

Чи це через здатність легше експлуатувати природний квантовий шум в аналогових схемах, поки що не публічно. Це швидше через кількість та складність функцій паралельної активації, які можна упакувати в єдиний чіп VLSI. Аналог має в цьому відношенні переваги величини перед цифровими.

Імовірно, вигідно членам AI Stack Exchange прискорити цей чітко виражений розвиток технології.

Важливі тенденції та не тренди в ШІ

Щоб підійти до цього питання науково, найкраще протиставити теорію аналогового та цифрового сигналів без упередженості тенденцій.

Любителі штучного інтелекту можуть багато чого знайти в Інтернеті про глибоке навчання, вилучення функцій, розпізнавання зображень та бібліотеки програмного забезпечення для завантаження та негайно розпочати експерименти. Це спосіб, коли більшість змочують ноги за допомогою технології, але швидке введення AI має і свою сторону.

Коли теоретичні засади раннього успішного розгортання споживчого інтелекту не зрозуміли, формуються припущення, що суперечать цим фондам. Важливі варіанти, такі як аналогові штучні нейрони, шиповидні мережі та відгуки в реальному часі, не помічаються. Вдосконалення форм, можливостей та надійності поставлено під загрозу.

Ентузіазм у розвитку технологій завжди повинен бути придушений принаймні рівною мірою раціональної думки.

Конвергенція та стабільність

У системі, де точність і стабільність досягаються за допомогою зворотного зв'язку, і аналогові, і цифрові значення сигналу завжди є просто оцінкою.

Цифрові значення в алгоритмі, що сходяться, або, точніше, стратегії, призначеної для конвергенції
Значення аналогового сигналу в стабільній робочій схемі підсилювача

Розуміння паралельності між конвергенцією через виправлення помилок у цифровому алгоритмі та стабільністю, досягнутою за допомогою зворотного зв’язку в аналоговому приладі, є важливим при обдумуванні цього питання. Це паралелі з використанням сучасного жаргону, з цифровим зліва та аналогом праворуч.

┌──────────────────────────────────────────────────── ─────────────┐
│ * Цифрові штучні мережі * │ * Аналогові штучні мережі * │
├──────────────────────────────────────────────────── ─────────────┤
│ Поширення вперед │ Первинний шлях сигналу │
├──────────────────────────────────────────────────── ─────────────┤
Function Функція помилок function Функція помилок │
├──────────────────────────────────────────────────── ─────────────┤
Конвергентний │ стабільний │
├──────────────────────────────────────────────────── ─────────────┤
│ Насичення градієнта │ Насичення на входах │
├──────────────────────────────────────────────────── ─────────────┤
Function Функція активації function Функція передачі вперед │
└──────────────────────────────────────────────────── ─────────────┘

Популярність цифрових мікросхем

Основним фактором зростання популярності цифрових мікросхем є його стримування шуму. Сьогоднішні цифрові схеми VLSI мають тривалий середній час до відмови (середній час між випадками, коли виникає неправильне значення біта).

Віртуальне усунення шуму дало цифровій схемі значну перевагу перед аналоговою схемою для вимірювання, PID-контролю, обчислення та інших застосувань. За допомогою цифрової схеми можна вимірювати до п'яти десяткових цифр точності, контролювати з надзвичайною точністю і обчислювати від π до тисячі десяткових цифр точності, повторно та надійно.

Бюджети авіації, оборони, балістики та контрзаходів, насамперед, підвищили виробничий попит для досягнення економії на масштабах у виробництві цифрових мікросхем. Попит на роздільну здатність дисплея та швидкість візуалізації спонукає використовувати GPU як цифровий процесор сигналу.

Чи багато в чому економічні сили викликають найкращий вибір дизайну? Чи найкраще використання штучних мереж на цифровому рівні найкраще використовувати дорогоцінну нерухомість VLSI? Це виклик цього питання, і він хороший.

Реалії складності ІС

Як згадується в коментарі, потрібні десятки тисяч транзисторів, щоб реалізувати в кремнію незалежний, багаторазовий штучний мережний нейрон. Це багато в чому через множення вектор-матриці, що веде в кожен активаційний шар. Потрібно лише кілька десятків транзисторів на штучний нейрон, щоб здійснити множення на вектор-матрицю та шаровий масив операційних підсилювачів. Операційні підсилювачі можуть бути розроблені для виконання таких функцій, як двійковий крок, сигмоїд, софт плюс, ELU та ISRLU.

Цифровий шум сигналу від округлення

Цифрова сигналізація не має шуму, оскільки більшість цифрових сигналів є округлими і, отже, наближеними. Насичення сигналу в зворотному розповсюдженні спочатку з'являється як цифровий шум, що утворюється внаслідок цього наближення. Подальше насичення відбувається, коли сигнал завжди округлюється до того ж бінарного подання.

$v$ $e$ $k$ $n$ $N$

$v = \sum_{n = 0}^{N} 1_n \, 2^{\, k + e + N - n}$

Програмісти іноді стикаються з ефектами округлення в подвійних або одноточних числах з плаваючою точкою IEEE, коли відповіді, які, як очікується, становитимуть 0,2, відображаються як 0.20000000000001. Одну п'яту не можна представити з ідеальною точністю як двійкове число, оскільки 5 не є коефіцієнтом 2.

Наука над медіа-шумом та популярними тенденціями

$E = mc^2$

У машинному навчанні, як і у багатьох технологіях, є чотири ключові показники якості.

Ефективність (що сприяє швидкості та економії використання)
Надійність
Точність
Зрозумілість (що сприяє ремонтопридатності)

Іноді, але не завжди, досягнення одного компрометує іншого, і в цьому випадку потрібно досягти балансу. Градієнтний спуск - це стратегія конвергенції, яка може бути реалізована за допомогою цифрового алгоритму, який добре врівноважує ці чотири, тому це є домінуючою стратегією в навчанні багатошарового персептрону та в багатьох глибоких мережах.

Ці чотири речі були основними для ранньої роботи в кібернетиці Норберта Вінера до появи перших цифрових схем у Bell Labs або першого фліп-флопа, здійсненого вакуумними трубами. Термін кібернетика походить від грецького κυβερνήτης (вимовляється kyvernítis ), що означає штурман , де руль і вітрила повинні були компенсувати постійно мінливий вітер і струм, і корабель, необхідний для сходження на призначений порт або гавань.

Погляд цього питання може спричинити те, що VLSI можна досягти для досягнення економії масштабу для аналогових мереж, але критеріями, поданими його автором, є уникнення тенденцій перегляду. Навіть якби це не було, як було сказано вище, для створення штучних мережевих шарів з аналоговою схемою потрібно значно менше транзисторів, ніж з цифровими. З цієї причини правомірно відповісти на питання, припускаючи, що аналог VLSI є дуже можливим за розумну ціну, якщо увага буде спрямована на його виконання.

Аналоговий дизайн штучної мережі

Аналогові штучні мережі досліджуються у всьому світі, включаючи спільне підприємство IBM / MIT, Intel Nirvana, Google, ВВС США ще в 1992 році ⁵ , Tesla та багато інших, деякі з яких зазначені в коментарях та додатках до цього питання.

Інтерес до аналогу для штучних мереж пов'язаний з кількістю функцій паралельної активації, які беруть участь у навчанні, може відповідати квадратному міліметру нерухомості чіпа VLSI. Це багато в чому залежить від того, скільки потрібно транзисторів. Матриці ослаблення (матриці навчальних параметрів) ⁴ потребують множення на вектор-матрицю, що вимагає великої кількості транзисторів і, таким чином, значної частини нерухомості VLSI.

У базовій багатошаровій персептронній мережі повинно бути п'ять незалежних функціональних компонентів, якщо вона повинна бути доступна для повністю паралельної підготовки.

Помноження на вектор-матрицю, яке параметризує амплітуду поширення вперед між функціями активації кожного шару
Збереження параметрів
Функції активації для кожного шару
Збереження виходів шару активації для застосування у зворотному розповсюдженні
Похідна функцій активації для кожного шару

В аналоговій схемі з більшим паралелізмом, притаманним способу передачі сигналу, 2 і 4 можуть не знадобитися. Теорія зворотного зв'язку та гармонійний аналіз будуть застосовані до схеми конструкції, використовуючи тренажер типу Spice.

Для врахування вартості рівняння може з розумною точністю передбачити вартість продукту VLSI як функцію від стандартної вартості упаковки VLSI $c_p$ , функція, що представляє собівартість як функцію обсягу виробництва $c(\int r)$ , функція швидкості виробництва як функція часу і витрат $r(t, c)$ , час $t$ , собівартість, ширина кожного мережевого шару індексу $i$ для $I$ шарами $w_i$ , кількість транзисторів на аттенюатор ⁴ $\tau_p$ , а також кількість транзисторів на активацію та її похідні ланцюги $\tau_a$ і $\tau_d$ відповідно.

$c = c_p \; c(\int r(t, c) \, dt) \; \Big( \sum_{i = 0}^{I - 2} \, (\tau_p w_i w_{i-1} + \tau_a w_i + \tau_d w_i) + \tau_a w_{I-1} + \tau_d w_{I-1} \Big)$

Для загальних значень цих мікросхем у поточних аналогових інтегральних схемах у нас є вартість аналогових мікросхем VLSI, яка з часом конвергується на значення, щонайменше на три порядки нижче, ніж цифрові мікросхеми з еквівалентним навчальним паралелізмом.

Безпосередня адресація введення шуму

Питання зазначає: "Ми використовуємо градієнти (якобійські) або моделі другого ступеня (Гессіана) для оцінки наступних кроків у конвергентному алгоритмі та навмисне додавання шуму [або] впорскування псевдовипадкових збурень для підвищення надійності конвергенції, вискакуючи локальні свердловини з помилкою поверхня під час конвергенції ".

Причина, що псевдо випадковий шум вводиться в алгоритм конвергенції під час навчання та в мережі реального часу (наприклад, мережі підкріплення), через наявність локальних мінімумів на поверхні невідповідності (похибки), які не є глобальними мінімумами цього поверхня. Глобальні мінімуми - це оптимально навчений стан штучної мережі. Місцеві мінімуми можуть бути далеко не оптимальними.

Ця поверхня ілюструє функцію помилок параметрів (два у цьому дуже спрощеному випадку ⁶ ) та питання локальних мінімумів, що приховують існування глобальних мінімумів. Низькі точки поверхні представляють мінімуми в критичних точках локальних районів оптимальної конвергенції тренувань. ^7,8

Функції помилок - це просто показник невідповідності між поточним станом мережі під час тренінгу та бажаним станом мережі. Під час навчання штучним мережам мета - знайти глобальний мінімум цієї нерівності. Така поверхня існує, незалежно від того, чи є вибіркові дані маркованими чи не маркованими та чи є критерії завершення навчання внутрішніми чи зовнішніми для штучної мережі.

Якщо швидкість навчання невелика, а початковий стан знаходиться на початку простору параметрів, конвергенція, використовуючи градієнтне спускання, сходиться до самої лівої свердловини, що є локальним мінімумом, а не глобальним мінімумом праворуч.

Навіть якщо фахівці, які ініціалізують штучну мережу для навчання, досить розумні, щоб вибрати середню точку між двома мінімумами, градієнт у цій точці все ще нахиляється до лівого мінімуму, і конвергенція прийде до неоптимального стану навчання. Якщо оптимальність навчання є критичною, як це часто є, навчання не зможе досягти результатів якості виробництва.

Одним із застосованих рішень є додавання ентропії до процесу конвергенції, що часто є просто введенням ослабленого виходу генератора псевдовипадкових чисел. Інше рішення, яке рідше використовується, - це розгалуження навчального процесу та спробу введення великої кількості ентропії у другий конвергентний процес, щоб паралельно відбувся консервативний пошук та дещо дикий пошук.

Це правда, що квантовий шум в надзвичайно малих аналогових схемах має більшу рівномірність спектру сигналу від його ентропії, ніж цифровий псевдовипадковий генератор, і для досягнення більш високої якості шуму потрібно набагато менше транзисторів. Чи були подолані проблеми, пов'язані з цим впровадженням VLSI, ще належить розкрити дослідницькими лабораторіями, вбудованими в уряди та корпорації.

Чи будуть такі стохастичні елементи, які використовуються для введення вимірюваних кількостей випадковості для підвищення швидкості та надійності тренувань, будуть достатньо захищені від зовнішнього шуму під час тренувань?
Чи будуть вони достатньо захищені від внутрішнього крос-розмови?
Чи виникне попит, який знизить витрати на виробництво VLSI достатньо, щоб досягти точки більшого використання поза високофінансовими науково-дослідними підприємствами?

Усі три виклики правдоподібні. Що певно, а також дуже цікаво, це те, як дизайнери та виробники полегшують цифровий контроль аналогових сигнальних шляхів та функцій активації для досягнення високої швидкості навчання.

Виноски

[1] https://ieeexplore.ieee.org/abrief/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] Під загасанням йдеться про множення виходу сигналу від одного приводу на треймерний перемір, щоб забезпечити додавання, яке підсумовується для інших для введення в активацію наступного шару. Хоча це фізичний термін, він часто використовується в електротехніці, і це відповідний термін для опису функції множення векторно-матричної матриці, яка досягає того, що в менш освічених колах називають зважуванням вхідних шарів.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] У штучних мережах є набагато більше, ніж два параметри, але на цій ілюстрації зображено лише два, оскільки графік може бути зрозумілим лише у 3-D, і нам потрібен один із трьох вимірів для значення функції помилки.

[7] Визначення поверхні: $z = (x-2)^2 + (y-2)^2 + 60 - \frac {40} {\sqrt{1 + (y - 1.1)^2 + (x - 0.9)^2}} - \frac {40} {(1 + {((y - 2.2)^2 + (x - 3.1)^2)}^4)}$

[8] Пов'язані команди gnuplot:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

— Дуглас Дазееко
джерело

4

Цифрова інструментація аналогових комірок

Однією з ключових проблем в аналогових штучних мережах є те, що мережеві прилади були б найбільш практичними, якщо вони цифрові. Будь-яка реалізація VLSI аналогових перцептронів, згортків або шипових мереж, ймовірно, повинна мати цифрові компоненти в гібридному розташуванні для декількох функцій.

Показники здоров'я
Індикатори несправностей
Архів та пошук вивчених параметрів ¹
Загальний системний контроль
Встановлення гіпер-параметрів
Операційна статистика
Інтроспектива розвитку та налагодження
Точки розриву
Слуховість

Це означає, що для реалізації аналогової мережі штучного навчання загального призначення буде потрібно перетворення A-D-D та D-to-A. ² Завдання проекту VLSI стає уникненням нарощування транзисторів від впровадження великої кількості блоків перетворення. Це може перемогти перевагу щільності аналогової реалізації прямого і зворотного поширення.

Ймовірним рішенням є використання матричної фіксації для розподілу сигналів від перетворювачів D-A на конденсатори та матриці комутації низьких витоків для вибору того, яке значення буде прочитане перетворювачами A-D. Це потрібно зробити без введення цифрового шуму в аналогові контури і без погіршення збережених зарядів або втрати точності при їх зарядці.

Наскільки значущою буде кількість додаткових транзисторів і маршрутів у виході з первинної мережевої ланцюга, можна дізнатися лише за допомогою процесу проектування VLSI.

Важливі внески з відкритим кодом

Університет штату Массачусетс представив сховище BindsNet з відкритим кодом ^3,4 у лютому 2018 року. Він імітує аналогові шипучі мережі з цифровим програмним та апаратним забезпеченням і використовує прискорення графічного процесора через PyTorch.

Це полегшує сучасні експерименти над шиповими проектами та стратегіями мережі. Успіх у використанні моделювання, якщо це буде досить значним, швидше за все призведе до вищої конструкції VLSI.

Виноски

[1] У будь-якій практичній системі навчання засвоєні параметри повинні бути вилучені з впровадження VLSI, збережені в базі даних та доступні для будь-якої кількості систем розробки, тестування, UAT або виробництва для розгортання, аналізу недоліків першопричини, масштабування та аварійного відновлення. Збереження та завантаження повинно бути основною особливістю гібридних аналогових штучних мереж VLSI, навіть між епохами під час тренувань та під час фактичного використання на місцях.

[2] Вивчений стан штучної мережі в конденсаторах не можна тримати нескінченно. Хоча конденсатори стали домінуючою пасивною складовою для аналогових схем, розроблених у стандартних CMOS-процесах, вони не можуть мати велику ємність, а витік не дорівнює нулю. Період напіввиведення ємнісних схем зберігання та необхідна точність значень параметрів визначатимуть швидкість циклу зчитування та умовного циклу оновлення.

[3] BindsNet сховище з відкритим кодом

[4] BindsNET [папір]: бібліотека, орієнтована на машинне навчання, шипучих нейронних мереж на Python для публікації реферату з паперу BindsNet на Гарварді U.

— Фахристиянин
джерело

4

Я здивований, що ніхто не згадав про конкретні напрямки дослідження в аналоговій галузі ІІ. А також уточнити штучний інтелект - це зовсім не те саме, що машинне навчання, як підказує ця відповідь . Останні досягнення в галузі аналогових обчислень були лише в галузі машинного навчання.

Аналоговий CMOS:

Для початку поговоримо про найдавніші аналогові реалізації нейронів. Dr.Giacomo Indiveri та ін були мало хто з першопрохідців у цій галузі. Хоча за допомогою логіки CMOS ви можете спроектувати шипучі нейронні мережі із STDP ( залежністю ), важко використовувати алгоритми машинного навчання. Людський мозок ще належить до кінця зрозуміти, особливо як він передає складну інформацію за допомогою шипів. Мережі, що базуються на шипі, хороші у виконанні відносно невеликих завдань розпізнавання зображень та низької складності (здається, більшість робіт більше стурбовані покращенням продуктивності, ніж застосовуються до складних завдань). Завдяки великій кількості доступних транзисторів ми можемо використовувати його у складних завданнях.

Найкращим прикладом може бути використання Google такою ідеєю низької точності в ТПУ та компенсації точності, використовуючи величезну кількість процесорних одиниць, що спричиняє певний компроміс між часом, точністю та площею. Це може бути аналогічно величезній кількості транзисторів в процесорі, хоча і з низькою точністю. ( Поглиблений огляд першого блоку обробки тензорів Google (TPU) )

ПРИМІТКА. Деякі можуть стверджувати, що технологія CMOS підпадає під цифровий домен, але оскільки ми спеціально не використовуємо CMOS для виконання будь-якої цифрової операції, я люблю вважати це аналогом.

Завдання на основі шипа, мабуть, досить хороші для мереж Winner Take All (на кшталт самоорганізації карт ), тому це загальний спосіб впровадження алгоритмів машинного навчання у VLSI-чіпах.

Мережі, що базуються на шипі, не мають ідеальної пам’яті, не можна мати ваги з високою точністю. Вони запропонували реалізувати біологічні ваги або синапси або пам'ять за допомогою конденсаторів, але, мабуть, це стикається з проблемами, схожими на звичайні кремнієві мікросхеми, як, наприклад, витік заряду, а також з іншими неідеалізаціями на основі кремнію, і, як я зрозумів, вони також можуть моделювати обмежені ваги ( як -1, 0, 1).

Цифрові обчислення:

Тут приходять цифрові обчислення. Завдання, які потребують великої кількості представлення з плаваючою точкою, не можуть бути просто реалізовані шипами, оскільки ми ще не знаємо і навіть не можемо повністю імітувати біофізичні чи будь-які аспекти справжнього нейрона з цього питання. Цифрові обчислення просто допомагають в передачі більше інформації, а також з максимальною точністю, як нам подобається (якщо ми розробляємо такий процесор). Незважаючи на те, що вузькі місця є відомим недоліком архітектури Фон Ноймана для цифрових обчислень, це не стільки проблема, скільки представлення інформації через шипи. Колоски завжди мають фіксовану величину, єдиний спосіб, по якому він, ймовірно, передає інформацію, - це за частотою та знаком (збудливим чи гальмуючим). Також тактові швидкості досить високі в сучасних комп’ютерах.

Меморіали: новий напрямок

Тут з'являється найновіший винахід " Мемрістор" . Це на сьогоднішній день був найбільш перспективним аналоговим пристроєм у машинному навчанні. Memristors - це зовсім нова концепція, яка передбачається в 70-х роках і виробляється лише в 2008 році. В основному, це RRAM або Resisitive RAM. У цьому опір резистора пам'яті або мемристора безпосередньо пов'язане з минулою поточною історією, що дуже схоже на біофізичні моделі нейрона. Вони також можуть бути легко навчені, використовуючи поперечні масиви (в основному матриця електричних контактів) мемрісторів (поперечні масиви представлятимуть вагові матриці, напруга, подана уздовж рядків або уздовж стовпців, визначає поширення вперед чи назад).

Таким чином, Memristor дає справжній аналог на алгоритми машинного навчання. На жаль, через недавній приїзд існує маса проблем, які ще належить вирішити.

Медістори можуть деградувати досить швидко, тобто вони мають обмежений цикл тренувань.
Мемфістори вносять багато шуму, що, мабуть, не допомагає у справі регуляризації, як може подумати інженер з МЛ.
Екзотичні елементи, необхідні для його виготовлення ( $TiO_2$ і $HfO_2$ ) кількість користувачів Memristors в академічних колах дуже обмежена. Але кілька лабораторій, що працюють в цій галузі, є:

Науково-дослідна лабораторія з наноелектроніки, Університет Пердю

Електрохімічні матеріали, ETH Цюріх

Проект людського мозку

Інститут MARCS для мозку, поведінки та розвитку

Нейроморфна фотоніка:

Останнім часом з'явився інтерес до галузі нейроморфної фотоніки. Ось коротка стаття на те саме. Я не знайомий з внутрішньою роботою тієї самої, але AFAIK передбачає передачу інформації в оптичному вигляді всередині самого обробного мікросхеми. Це призводить до деяких переваг перед звичайними аналоговими чи цифровими схемами:

Швидша обробка інформації.
Більш висока щільність інформації.
Краща вірність даних через дуже менші втрати.

— ДуттаА
джерело

Побічна примітка: Деякі мої спостереження ґрунтуються на фактах, а деякі - з пам'яті, тому я можу помилитися (оскільки я початківець у цій галузі). Сміливо вказуйте на помилки.

— DuttaA

2

Я вважаю, що більшість людей старанно відповіли на питання справді інформативно. Я просто хотів би сказати, що ми використовуємо цифрові схеми зазвичай, тому що це вже існуюча технологія і, безумовно, аналогові схеми здаються справді перспективними.

Однак на даний момент ця ідея не дуже розвинена, незважаючи на кількість досліджень, проведених за останні роки. Поки жодна компанія не намагалася реалізувати ідею на комерційному рівні, де вони роблять такі чіпи для використання поза своїми лабораторіями.

Крім того, ця ідея відчуває себе новим підходом і має великий потенціал.

Але, з нашим нерозумінням того, як працюють деякі моделі, деякі просто не мають проблеми; як нейронні мережі реально вирішують такі складні проблеми та багато інших речей. Тому, це все ще досить далека технологія, щоб досягти свого повного потенціалу.

PS Я все ще початківець у цій галузі і вважаю, що моя думка так не враховується, якщо я десь був зайвим або не зміг дати тобі очікувану відповідь, я щиро шкодую про це.

— користувач79161
джерело

Ця відповідь показує думку. Правда, що існуюча технологія не демонструє такого великого прогресу з програмованим аналоговим VLSI, як цифровим. ... Що невідомо, це результат науково-дослідних та науково-дослідних досліджень ВМС США та DARPA, які широко фінансуються десятиліттями. Розсекречено лише початкові документи. ICBM і контрзаходи можуть бути аналоговими інтелектуальними схемами в діапазоні 100 ГГц. Чи ні. ... Ваше письмо не було ні зайвим, ні наївним. Звичайно, у відкритому коді ці технології тільки починають бачити. Гарна відповідь. Не соромтесь залишати його таким, яким він є, або розвивати його далі.

— Fauhhristian

2

Можна також підійти до питання з аспекту теорії інформації:

Можна вибрати два торги / пропозиції:

Аналогова інформація, яка може представляти інформацію більш точним / конкретним способом, але обмежена кількістю.

Цифрова інформація, яка не повністю представляє реальний світ, але може містити необмежену кількість інформації в межах декількох біт. Хорошим прикладом може бути щось на зразок збільшення для циклу:

i = 0
while True:
   print(i)
   i += 1

Хто з них потужніший?

— Олексій Майде
джерело

Це взагалі вірно. Подумайте, що це означає вчитися в контексті ШІ. Ми моделювали різні види навчання в машинах за допомогою систем правил з мета-правилами, штучними мережами, розширеннями до ланцюга Маркова, нечіткою логікою та великою різноманітністю інших методик та архітектур. Коли відбувається навчання, існує якась оптимальна поведінка, яку намагається придбати навчання. Як аналогові або цифрові системи можуть конвергуватися або відстежувати (в режимі реального часу) до оптимальної поведінки, і яка має довгострокову перевагу?

— Fauhhristian

1

Хава Зігельман

На перший погляд Аналогові обчислення перевершують цифрові. Квантові комп'ютери швидше, ніж комп'ютери Von-Neumann, а нейроморфні мікросхеми потребують менше енергії, ніж процесори Intel. Також з теоретичної точки зору багато хто виступає за аналогові комп'ютери. Хава Зігельманн досліджував надтвердісні можливості нейронної мережі, а це означає, що аналоговий комп'ютер може емулювати цифровий, але не навпаки. То чому б нам не використовувати аналогові обчислення?

Стівен Вольфрам

Причина пов'язана з системою освіти. Класична математика, яку викладають у школах, є аналоговою математикою. Він заснований на правилах слайдів, таблиці логарифмів та мисленні в схемах. На противагу цьому, мислення в дискретних значеннях алгоритму та опис світу в нулі та одній принципово відрізняється і призводить нас до нового виду математики. Стівен Вольфрам пояснив, що розуміння клітинних автоматів є важливим кроком для опису Всесвіту, і він має рацію. Ігнорування аналогової математики та віддавання переваги твердінню здібних комп'ютерних мов є потужним методом у навчанні. Це допомагає не тільки ознайомитися з комп’ютерами, але і з усіма іншими речами, такими як медицина, література та економіка. Навіть якщо аналогові машини є вищими технічними, ми повинні віддавати перевагу повільним, але дискретним машинам Тьюрінга,

Викладання математики

Щоб зрозуміти різницю між цифровими та аналоговими обчисленнями, ми повинні зосередитися на самій математиці, яка використовується в школах. Якщо ідея полягає у просуванні аналогових обчислень вперед, відповідний вид математики групується навколо електричних полів, інтеграції та диференціації. У школах це викладається під парасольовим терміном "Математичний аналіз". Ця тема була дуже важливою у минулому, адже аналіз допомагає будувати мости, машини та машини. У всіх цих областях використовується векторна алгебра для опису геометричного простору.

Якщо аналогові обчислення настільки потужні, навіщо комусь потрібна цифрова математика? Це пов'язано з алгоритмом. Те, що планувальник та диференціальний аналізатор не повинні пропонувати, - це можливості програмування. Визначити алгоритми та штучні мови неможливо. Погляд в історію математики показує, що алгоритм-теорія не була дуже поширеною в минулому. У сучасній математиці це обговорюється під терміном обчислення Лямбда та проблема зупинки .

Найсмішніше, що з першого погляду обчислення Ламди не має практичного застосування. Це не потрібно, якщо хтось хоче, щоб обчислити площу мосту. Теорія алгоритму - це школа думок для вдосконалення критичного мислення. Це філософія, потрібна людині, а не машинам.

— Мануель Родрігес
джерело

Приємно, що ти дав згадку про Сейгельмана. Другий абзац складно дотримуватися логічно. Безумовно, освіта є головним у цьому питанні, і послідовність ДНК та цифрові зображення, безумовно, покращили медицину. Чи можете ви детальніше розповісти про те, як покращилася література? Дехто стверджує, що цифрові обчислення погіршили мінливість економіки, однак більш важливе значення для вимог достойних витрат, чому хтось вважає за краще повільний дискретний над швидким безперервним, не випливає з заяви Вольфрама. На це твердження також немає посилань. Чи можете ви надати посилання та надати відсутність логіки?

— Fauhhristian