Які змінні компоненти навчальної системи відповідають за її успіх чи провал? Які зміни до них покращують продуктивність? Це було названо основною проблемою присвоєння кредиту (Мінський, 1963). Існують загальні методи присвоєння кредиту універсальним рішенням проблем, які є оптимальними за часом у різних теоретичних сенсах (Розд. 6.8). Цей огляд, однак, буде зосереджений на вузькому, але тепер комерційно важливому підполі глибокого навчання (DL) у Штучних нейронних мережах (NNs).
Стандартна нейронна мережа (NN) складається з безлічі простих, пов'язаних між собою процесорів, званих нейронами, кожен з яких створює послідовність дійсних цінностей активацій. Вхідні нейрони активізуються через датчики, що сприймають навколишнє середовище, інші нейрони активізуються за допомогою зважених з'єднань з раніше активними нейронами (деталі в розділі 2). Деякі нейрони можуть впливати на навколишнє середовище, викликаючи дії. Навчання чи присвоєння кредиту - це пошук ваг, завдяки яким NN виявляє бажану поведінку, наприклад, за кермом автомобіля. Залежно від проблеми та того, як пов'язані нейрони, така поведінка може зажадати довгих причинних ланцюгів обчислювальних стадій (Розділ 3), де кожна стадія перетворює (часто нелінійним способом) сукупну активацію мережі. Глибоке навчання - це точне призначення кредиту на багатьох таких етапах.
Неглибокі NN-подібні моделі з кількома такими етапами існували вже багато десятиліть, якщо не століття (Розділ 5.1). Моделі з декількома послідовними нелінійними шарами нейронів сягають принаймні 1960-х років (Розд. 5.3) та 1970-х років (Розділ 5.5). Ефективний метод спуску градієнтів для наглядового навчання на основі викладачів у дискретних, диференційованих мережах довільної глибини, званих зворотним розмноженням (ВР), був розроблений у 1960-х та 1970-х роках і застосований до НН у 1981 році (Розділ 5.5). Навчання на основі ВР для глибоких мереж з багатьма шарами, проте, було виявлено, що на практиці складно на кінці 1980-х (Розділ 5.6), і стало явним предметом дослідження на початку 1990-х (Розділ 5.9). DL стала певною мірою практично можливою завдяки непідконтрольному навчанню (UL), наприклад, сек. 5.10 (1991), розд. 5.15 (2006). У 1990-х та 2000-х рр. Також відбулося багато вдосконалень суто під наглядом DL (Розділ 5). У новому тисячолітті глибокі НН нарешті привернули широку увагу, головним чином, перевершивши альтернативні методи машинного навчання, такі як машини ядра (Vapnik, 1995; Scholkopf et al., 1998) у багатьох важливих сферах застосування. Насправді, починаючи з 2009 року, контрольовані глибокі мережі виграли багато офіційних міжнародних змагань з розпізнавання образів (наприклад, розділи 5.17, 5.19, 5.21, 5.22), досягнувши перших надлюдських результатів розпізнавання візуального візерунка в обмежених областях (розд. 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчальної підготовки (RL), де немає викладача, що здійснює нагляд (Секція 6). головним чином, перевершуючи альтернативні методи машинного навчання, такі як машини ядра (Vapnik, 1995; Scholkopf et al., 1998) у багатьох важливих сферах застосування. Насправді, починаючи з 2009 року, контрольовані глибокі мережі виграли багато офіційних міжнародних змагань з розпізнавання образів (наприклад, розділи 5.17, 5.19, 5.21, 5.22), досягнувши перших надлюдських результатів розпізнавання візуального візерунка в обмежених областях (розд. 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчальної підготовки (RL), де немає викладача, що здійснює нагляд (Секція 6). головним чином, перевершуючи альтернативні методи машинного навчання, такі як машини ядра (Vapnik, 1995; Scholkopf et al., 1998) у багатьох важливих сферах застосування. Насправді, починаючи з 2009 року, контрольовані глибокі мережі виграли багато офіційних міжнародних змагань з розпізнавання образів (наприклад, розділи 5.17, 5.19, 5.21, 5.22), досягнувши перших надлюдських результатів розпізнавання візуального візерунка в обмежених областях (розд. 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчальної підготовки (RL), де немає викладача, що здійснює нагляд (Секція 6). досягнення першого надлюдського візуального розпізнавання образів призводить до обмежених областей (Секція 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчального навчання (RL), де немає викладача, що здійснює нагляд (Секція 6). досягнення першого надлюдського візуального розпізнавання образів призводить до обмежених областей (Секція 5.19, 2011). Глибокі національні мережі також стали актуальними для більш загальної галузі навчального навчання (RL), де немає викладача, що здійснює нагляд (Секція 6).
З іншого боку, я не впевнений, що намагатися вибудувати таксономію взаємовиключних відер для стратегій машинного навчання обов'язково вигідно. Я думаю, що можна сказати, що є перспективи, з яких моделі можна розглядати як нейронні мережі. Я не думаю, що перспектива не є найкращою чи корисною у будь-якому контексті. Наприклад, я все ще планую називати випадкові ліси та дерева, що підсилюють градієнти, як "ансамблі дерев", а не абстрагувати їхні відмінності та називати їх "деревами нейронної мережі". Більше того, Шмідхубер відрізняє NN від машин ядра - навіть якщо машини ядра мають певні зв'язки з NN - коли він пише: "У новому тисячолітті глибокі NN нарешті привернули широку увагу, головним чином, перевершуючи альтернативні методи машинного навчання, такі як машини ядра ... у багатьох важливих сферах застосування. "