Яка різниця між нейронною мережею, системою глибокого навчання та мережею глибокої віри?

23

Як я пам’ятаю, ваша основна нейронна мережа є своєрідною річчю в 3 шари, і у мене були описані системи глибоких переконань як нейронні мережі, розміщені один на одного.

Я нещодавно не чув про системи глибокого навчання, але сильно підозрюю, що це синонім системи глибокої віри. Хтось може це підтвердити?

machine-learning neural-networks boltzmann-machine

— Ліндон Уайт
джерело

можливо ти маєш на увазі "глибоке навчання"? див., наприклад, новини глибокого вивчення / посилання

— vzn

Система глибоких переконань - це термін, на який я натрапив, вони можуть бути, а можуть і не бути синонімами (пошук Google підкине статті для системи глибокої віри)

— Lyndon White

Мережа глибоких переконань - це канонічна назва, оскільки вони походять від мережі Deep Boltzmann (і це може бути плутати із системою поширення віри, яка зовсім інша, оскільки мова йде про байєсівські мережі та теорії ймовірнісних рішень).

— габоровий

@gaborous Deep Belief Network - це правильна назва (документ, який я отримав багато років тому, представляючи мене, мабуть, мав друк). але що стосується поглиблених болцманських мереж, саме це ім'я не є канонічним (AFAIK, радий бачити цитування). DBN походять від Sigmoid Belief Networks та складених RBM. Я не думаю, що термін Deep Boltzmann Network не використовується ніколи. З іншого боку, машина Deep Boltzmann - вживаний термін, але машини Deep Boltzmann були створені після Deep Belief Networks

— Lyndon White

@Oxinabox Ви маєте рацію, я зробив помилку на друк, це Deep Boltzmann Machines, хоча насправді слід було б назвати Deep Boltzmann Network (але тоді абревіатура була б такою ж, тому, можливо, саме тому). Я не знаю, яка глибока архітектура була винайдена першою, але машини Больцмана були до напівобмежених bm. DBN і DBM - це дійсно одна і та ж конструкція, за винятком того, що базова мережа, що використовується як повторюваний шар, є SRBM проти BM.

— габоровий

10

Моделі штучних нейронних мереж зазвичай з різних причин обмежувалися лише кількома шарами, скажімо, 3, включаючи математичний доказ з ім'ям Колмогорового thm, який вказував, що вони можуть теоретично наближати довільні функції з низькою помилкою (але лише з багатьма нейронами).

багатошарові мережі, що перевищували це, були не здійснені / ефективні за допомогою попередніх методів навчання. подібний прорив відбувся в 2006 році трьома різними дослідниками Хінтоном, Ле Куном, Бенджо, які змогли навчити набагато більше шарів. визначною проблемою в цій галузі було визнання рукописного тексту.

термін "мережа глибоких переконань" походить з документа Хінтона 2006 року, що стосується байєсівських мереж , які мають тісні концептуальні / теоретичні зв'язки / аналогії з нейронними мережами. "Алгоритм швидкого навчання для мереж з глибокою вірою"

див. слайд 17, зокрема, цієї презентації глибоких нейронних мереж

тож поле глибокого навчання лише у віці ~ ½ десятиліття та проходить швидкі дослідження та розробки. Google, Facebook, Yahoo оголосили всі ініціативи на основі глибокого навчання, і науково-дослідні роботи тривають.

— взн
джерело

веб-сайт, присвячений глибокому вивченню дослідниками у цій галузі

— vzn

14

Штучні нейронні мережі - це клас алгоритмів, що включає в себе безліч різних видів алгоритмів на основі графіків, тому я не буду деталізувати тут, крім того, що ви просили, тому що є занадто багато, щоб сказати, оскільки існує так багато видів ANN.

Перший вид штучних нейронних мереж, знамениті нейрони МакКаллоха-Пітса, були лінійними , це означає, що вони могли вирішувати лише задачі лінійного рішення (тобто набори даних, які могли бути лінійно відокремлювані шляхом нанесення лінії). З часом ця лінійна модель нейронної мережі стала називатися Перцептроном або Адаліном (залежно від способу обчислення ваг).

Лінійні нейронні мережі просто складаються з двостороннього графіка, де ліві бічні вузли є входами, а правий - вузлами вихід. Дізнаються лише ваги ребер між цими вузлами (поріг активації вузлів також можна регулювати, але це робиться рідко).

Основна нейронна мережа, така як Адалін або Перцепрон (без прихованого шару) Лінійна межа рішення

Великий крок був зроблений, коли були винайдені неглибокі нейронні мережі: замість того, щоб мати лише двосторонній графік, ми використовуємо 3-х частинний графік: вхідний "шар", вихідний "шар" та один "прихований шар" між ними. Завдяки прихованому шару, мережа тепер може приймати нелінійні рішення та вирішувати такі проблеми, як канонічний XOR.

Xor нейрональна мережа Приклад нейтральної мережі Xor, наприклад, шляхи активації Межа прийняття рішення щодо мережі Xor

Зауважимо, що "неглибокий" термін був введений ретроспективно, коли були винайдені глибокі нейромережі (їх також називали нейронними мережами n-шарів ). Це полягає в тому, щоб протиставити нейронні мережі лише з одним прихованим шаром, а з глибокими нейронними мережами з n прихованими шарами . Як ви здогадаєтесь, використання більш прихованих шарів дозволяє вирішити складніші набори даних, оскільки існує більше шарів для модуляції рішення (тобто, іншими словами, ви збільшуєте розмірність межі вашого рішення, що може призвести до перевиконання).

N-шарова нейронна мережа Складна нелінійна межа рішення з використанням n-шару глибокої нейронної мережі

Ви можете запитати: чому раніше ніхто не намагався використовувати багатошарові (глибокі) нейронні мережі? Насправді, вони зробили, а вже в 1975 році Фукусімі з когнітрону і Неокогнітрон (що насправді сверточного нейронна мережа, але це інша історія). Однак проблема полягала в тому, що ніхто не знав, як ефективно вивчити такі мережі, велике питання - регуляризація . Автоінкодери Хінтона відкрили шлях, і пізніше Виправлені лінійні одиниці LeCun вирішили проблему назавжди.

Що з мережами глибоких переконань (DBN)? Вони просто багатошарові напівзахисні машини Болтцмана. Таким чином, вони є своєрідною глибокою нейронною мережею, але з іншою базовою мережевою схемою (тобто: шар, це повторювана закономірність). Машини Больцмана відрізняються від інших мереж тим, що вони є генеративними , що означає, що вони зазвичай використовується для навчання з ваших даних для їх відтворення ("генерування"), тоді як звичайні глибокі нейронні мережі використовуються для розділення ваших даних (шляхом нанесення "межі рішення").

Іншими словами, DNN чудово класифікує / прогнозує значення у вашому наборі даних, тоді як DBN чудово "відновлює" пошкоджені дані (коли я кажу, що це ремонт не лише зі пошкоджених даних, він також може бути на ідеально чудових даних що ви просто хочете трохи виправити, щоб бути більш стереотипним, щоб легше розпізнати за допомогою іншої нейронної мережі, наприклад, рукописних цифр).

Насправді, щоб акуратно підсумувати, ви можете сказати, що AutoEncoders - це простіша форма мережі глибокої віри. Ось приклад DBN, який навчається розпізнавати обличчя, але НЕ номери, цифри автоматично згасають (це ефект "виправлення" DBN):

Приклад мережі глибокої віри в розпізнаванні облич

Отже, врешті-решт, DBN та DNN не протилежні: вони є взаємодоповнюючими. Наприклад, ви можете уявити систему для розпізнавання рукописних символів, які спочатку подаватимуть зображення персонажа в DBN, щоб зробити його більш стереотипним, а потім подати стереотипне зображення до DNN, яке потім виведе, який символ зображує зображення.

Останнє зауваження: мережі глибокої віри дуже близькі до машин Deep Boltzmann: машини Deep Boltzmann використовують шари машини Boltzmann (які є двонаправленими нейронними мережами, які також називаються рекурентними нейронними мережами), в той час як Deep Belief Nets використовують напів обмежені машини Boltzmann (напів- обмежений означає, що вони змінені на односпрямовані, таким чином, це дозволяє використовувати зворотні розмноження для вивчення мережі, яка є значно ефективнішою, ніж вивчення мережі рекордерів). Обидві мережі використовуються з однаковою метою (регенерують набір даних), але обчислювальна вартість відрізняється (Deep Boltzmann Machines набагато дорожче навчитися через свою періодичність: важче "стабілізувати" ваги).

Бонус: щодо конволюційних нейронних мереж (CNN) ви знайдете безліч суперечливих і заплутаних тверджень, і зазвичай ви виявите, що це просто глибокі нейронні мережі. Однак, мабуть, консенсус полягає у використанні оригінального визначення неокогнітрона Фукусіми: CNN - це DNN, який змушений отримувати різні особливості на різних ієрархічних рівнях, накладаючи згортання перед активацією (що, природно, може зробити DNN, але примушуючи його встановивши іншу функцію згортання / активації на різних шарах мережі, можна отримати кращий результат, принаймні, це ставка CNN):

Особливості глибокої нейронної мережі Особливості конволюційної нейронної мережі

І нарешті, для більш жорсткої шкали штучного інтелекту дивіться тут .

— габоровий
джерело

1

Чудова відповідь! Ключовим аспектом (можливо, визначальним аспектом) конволюційних глибоких мереж є те, що кожному шару відповідає застосування згортки, а потім застосування функції активації: є ядро, і всі вузли в шарі застосовують одне ядро. Уявіть, що вхід - це зображення. Зазвичай у вас є вузол для кожного пікселя, і він має з'єднання, що надходять із сусідніх пікселів. Звичайна мережа дозволила б кожному пікселю мати власний візерунок ваг на вхідних краях. Згорнута мережа накладає додаткову вимогу, щоб це була однакова послідовність ваг на кожному пікселі зображення.

— DW

Так, справді ти маєш рацію, і звідси походить назва. Але особисто я думаю, що це часто використовується як хак, щоб спеціалізувати глибоку нейронну мережу, ніж будь-що інше (коли визначальна характеристика глибокої нейронної мережі має бути загальним призначенням і агностиком для набору даних). Наприклад, HMAX, своєрідна CNN, використовує згортку для обчислення карт схильності, що, очевидно, є злом, коли карта схильності в біологічній нейронній мережі, звичайно, не обчислюється за допомогою динамічного програмування ...

— робочий

3

Глибокі нейронні мережі - це нейронні мережі, які мають відносно велику глибину. Вони є підкласом нейронних мереж. Ідея насправді сягає десятиліттями і не нова. Що нового є те, що ми придумали, як навчити їх на практиці. Причиною, що останнім часом стала дуже популярною, є те, що їх навчання стало здійсненним, і люди використовували їх для перемоги над сучасними алгоритмами. DNN потрібно багато даних та обчислювальної потужності, які не були доступні десятиліттями тому. Джефф Гінтон та його студенти та колеги придумали, як навчити їх на практиці протягом останнього десятиліття, і використали їх для того, щоб перемогти найсучасніші алгоритми машинного навчання в декількох сферах, де більшість дослідників ухилялися від ідеї повністю використовувати їх у той час.

Мережі вірування - це клас ймовірнісних графічних моделей, вони моделюють купу випадкових змінних та їх залежностей за допомогою графіка (для цього є різні способи). Самі ці змінні можуть бути з параметризованих розподілів і можуть моделюватися нейронними мережами (або іншою моделлю представлення параметризованих розподілів). Мережі глибокої віри - це вірогідні мережі, які мають відносно велику глибину.

Берегові мережі мають тенденцію бути генеративними, тобто ми можемо використовувати навчену модель для отримання зразків з розподілу, який він представляє.

Нейронні мережі мають тенденцію бути дискримінаційними, ми можемо використовувати їх для обчислення ймовірності даного введення (це картина кішки? Яка ймовірність того, що це зображення малюка кішки?), Але зазвичай не для вибірки (генерувати малюнок кота).

— Каве
джерело

Я не є експертом в галузі ML, тому прийміть те, що я написав, із зерном солі.

— Kaveh

-1

Нейронні мережі, як правило, реалізуються там, де потрібні приховані шари та квадратичні рівняння;

— Case Msee
джерело

Так що обом потрібні приховані шари? Не могли б ви зробити кілька прихованих шарів у звичайній мережевій мережі? Це мережі Boltzmann, ви мали на увазі машини Boltzmann? То в чому різниця? Це не відповідає на питання (а може, і є, але це занадто незрозуміло).

— Зло