Я б запропонував вам спочатку добре зрозуміти, що лежить в основі імовірнісної моделі в традиційній байєсівській нейронній мережі. Далі деякі терміни будуть написані жирним шрифтом . Будь ласка, спробуйте погуглити ці умови, щоб знайти більш детальну інформацію. Це лише основний огляд. Я сподіваюся, що це допомагає.
Розглянемо випадок регресії в нейронних мережах подачі і встановимо деяку позначення.
( х1, … , Хp) = : ( z( 0 )1, … , Z( 0 )N0)(z(ℓ)1,…,z(ℓ)Nℓ)ℓ=1,…,L−1 (y1,…,yk)=:(z(L)1,…,z(L)NL)
iℓw(ℓ)ijb(ℓ)iℓ=1,…,Li=1…,Nℓj=1,…,Nℓ−1
g(ℓ)i:RNℓ−1→Riℓℓ=1,…,Li=1…,Nℓ
Найчастіше використовуваними функціями активації є логістичний , ReLU (також позитивна частина ) та танх .
ℓ=1,…,L
G(ℓ):RNℓ−1→RNℓ:(z(ℓ−1)1,…,z(ℓ−1)Nℓ−1)↦(z(ℓ)1,…,z(ℓ)Nℓ),
z(ℓ)i=g(ℓ)i(∑j=1Nℓ−1w(ℓ)ijz(ℓ−1)j+b(ℓ)i),
i=1,…,Nℓ
θ
θ={w(ℓ)ij,b(ℓ)i:ℓ=1,…,L;i=1…,Nℓ;j=1,…,Nℓ−1},
Gθ:Rp→RkGθ=G(L)∘G(L−1)∘⋯∘G(1).
У вищеописаному описі немає ймовірностей. Метою оригінального нейромережевого бізнесу є пристосування функції .
"Глибоке" в " Глибокому навчанні" означає існування багатьох внутрішніх шарів у нейромережах, що розглядаються.
{(xi,yi)∈Rp×Rk:i=1,…,n}
∑i=1n∥yi−Gθ(xi)∥2,
θx∗, передбачувана відповідь - це просто , в якому є рішенням проблеми мінімізації. Золотим стандартом цієї мінімізації є
зворотна розмноження, реалізована бібліотекою
TensorFlow, використовуючи засоби паралелізації, наявні в сучасних
GPU (для своїх проектів ознайомтеся з інтерфейсом
Keras ). Крім того, зараз є апаратне забезпечення, яке інкапсулює ці завдання (
TPU ). Оскільки нейронна мережа загалом переосмислена, щоб уникнути перевиконання якоїсь форми регуляризації додається до рецепту, наприклад, підсумовуючи
гребінь, як пенальті, до цільової функції, або використовуючи
Gθ^(x∗)θ^випадання під час тренувань.
Джеффрі Хінтон (він же «Глибокий навчаючи хрещеного батька») та його співробітники винайшли багато з цих речей. Історії успіху глибокого навчання є скрізь.
Ймовірності були введені в картину наприкінці 80-х - початку 90-х з пропозицією ймовірності Гаусса
і простий (можливо спрощений) Гауссовий пріоритет, припускаючи апріорну незалежність усіх ваг і ухилів у мережі:
Lx,y(θ,σ2)∝σ−nexp(−12σ2∑i=1n∥yi−Gθ(xi)∥2),
π(θ,σ2)∝exp(−12σ20∑ℓ=1L∑i=1Nℓ((b(ℓ)i)2+∑j=1Nℓ−1(w(ℓ)ij)2))×π(σ2).
Тому граничні пріори для ваг та зміщення є нормальними розподілами з нульовою середньою та загальною дисперсією . Цю оригінальну спільну модель можна зробити набагато активнішою, а компроміс - зробити висновок складніше.σ20
Байєсівське глибоке навчання стоїть перед складним завданням відбору проб із відповідного заднього розподілу. Після цього, прогнози робляться природним шляхом із заднім прогнозним розподілом , і невизначеності, пов'язані з цими прогнозами, повністю оцінюються. Святий Грааль в Байєсівському глибокому навчанні - це створення ефективного та масштабованого рішення. У цьому квесті було використано багато обчислювальних методів: відбір проб Метрополіс-Гастінгса та Гіббса , Гамільтоніанський Монте-Карло та, останнім часом, Варіаційний висновок .
Перегляньте відео конференції NIPS, щоб ознайомитись з деякими історіями успіху: http://bayesiandeeplearning.org/