Штучні нейронні мережі - це клас алгоритмів, що включає в себе безліч різних видів алгоритмів на основі графіків, тому я не буду деталізувати тут, крім того, що ви просили, тому що є занадто багато, щоб сказати, оскільки існує так багато видів ANN.
Перший вид штучних нейронних мереж, знамениті нейрони МакКаллоха-Пітса, були лінійними , це означає, що вони могли вирішувати лише задачі лінійного рішення (тобто набори даних, які могли бути лінійно відокремлювані шляхом нанесення лінії). З часом ця лінійна модель нейронної мережі стала називатися Перцептроном або Адаліном (залежно від способу обчислення ваг).
Лінійні нейронні мережі просто складаються з двостороннього графіка, де ліві бічні вузли є входами, а правий - вузлами вихід. Дізнаються лише ваги ребер між цими вузлами (поріг активації вузлів також можна регулювати, але це робиться рідко).
Великий крок був зроблений, коли були винайдені неглибокі нейронні мережі: замість того, щоб мати лише двосторонній графік, ми використовуємо 3-х частинний графік: вхідний "шар", вихідний "шар" та один "прихований шар" між ними. Завдяки прихованому шару, мережа тепер може приймати нелінійні рішення та вирішувати такі проблеми, як канонічний XOR.
Зауважимо, що "неглибокий" термін був введений ретроспективно, коли були винайдені глибокі нейромережі (їх також називали нейронними мережами n-шарів ). Це полягає в тому, щоб протиставити нейронні мережі лише з одним прихованим шаром, а з глибокими нейронними мережами з n прихованими шарами . Як ви здогадаєтесь, використання більш прихованих шарів дозволяє вирішити складніші набори даних, оскільки існує більше шарів для модуляції рішення (тобто, іншими словами, ви збільшуєте розмірність межі вашого рішення, що може призвести до перевиконання).
Ви можете запитати: чому раніше ніхто не намагався використовувати багатошарові (глибокі) нейронні мережі? Насправді, вони зробили, а вже в 1975 році Фукусімі з когнітрону і Неокогнітрон (що насправді сверточного нейронна мережа, але це інша історія). Однак проблема полягала в тому, що ніхто не знав, як ефективно вивчити такі мережі, велике питання - регуляризація . Автоінкодери Хінтона відкрили шлях, і пізніше Виправлені лінійні одиниці LeCun вирішили проблему назавжди.
Що з мережами глибоких переконань (DBN)? Вони просто багатошарові напівзахисні машини Болтцмана. Таким чином, вони є своєрідною глибокою нейронною мережею, але з іншою базовою мережевою схемою (тобто: шар, це повторювана закономірність). Машини Больцмана відрізняються від інших мереж тим, що вони є генеративними , що означає, що вони зазвичай використовується для навчання з ваших даних для їх відтворення ("генерування"), тоді як звичайні глибокі нейронні мережі використовуються для розділення ваших даних (шляхом нанесення "межі рішення").
Іншими словами, DNN чудово класифікує / прогнозує значення у вашому наборі даних, тоді як DBN чудово "відновлює" пошкоджені дані (коли я кажу, що це ремонт не лише зі пошкоджених даних, він також може бути на ідеально чудових даних що ви просто хочете трохи виправити, щоб бути більш стереотипним, щоб легше розпізнати за допомогою іншої нейронної мережі, наприклад, рукописних цифр).
Насправді, щоб акуратно підсумувати, ви можете сказати, що AutoEncoders - це простіша форма мережі глибокої віри. Ось приклад DBN, який навчається розпізнавати обличчя, але НЕ номери, цифри автоматично згасають (це ефект "виправлення" DBN):
Отже, врешті-решт, DBN та DNN не протилежні: вони є взаємодоповнюючими. Наприклад, ви можете уявити систему для розпізнавання рукописних символів, які спочатку подаватимуть зображення персонажа в DBN, щоб зробити його більш стереотипним, а потім подати стереотипне зображення до DNN, яке потім виведе, який символ зображує зображення.
Останнє зауваження: мережі глибокої віри дуже близькі до машин Deep Boltzmann: машини Deep Boltzmann використовують шари машини Boltzmann (які є двонаправленими нейронними мережами, які також називаються рекурентними нейронними мережами), в той час як Deep Belief Nets використовують напів обмежені машини Boltzmann (напів- обмежений означає, що вони змінені на односпрямовані, таким чином, це дозволяє використовувати зворотні розмноження для вивчення мережі, яка є значно ефективнішою, ніж вивчення мережі рекордерів). Обидві мережі використовуються з однаковою метою (регенерують набір даних), але обчислювальна вартість відрізняється (Deep Boltzmann Machines набагато дорожче навчитися через свою періодичність: важче "стабілізувати" ваги).
Бонус: щодо конволюційних нейронних мереж (CNN) ви знайдете безліч суперечливих і заплутаних тверджень, і зазвичай ви виявите, що це просто глибокі нейронні мережі. Однак, мабуть, консенсус полягає у використанні оригінального визначення неокогнітрона Фукусіми: CNN - це DNN, який змушений отримувати різні особливості на різних ієрархічних рівнях, накладаючи згортання перед активацією (що, природно, може зробити DNN, але примушуючи його встановивши іншу функцію згортання / активації на різних шарах мережі, можна отримати кращий результат, принаймні, це ставка CNN):
І нарешті, для більш жорсткої шкали штучного інтелекту дивіться тут .