Що таке байєсівське глибоке навчання?


13

Що таке байєсівське глибоке навчання і як воно пов'язане з традиційною баєсійською статистикою та традиційним глибоким навчанням?

Які основні поняття та математика задіяні? Чи можу я сказати, що це просто не параметрична байесівська статистика? Які його семінарські роботи, а також сучасні основні розробки та застосування?

PS: Байєсівське глибоке навчання привертає багато уваги, дивіться семінар NIPS.

Відповіді:


10

Вийшовши зі свого посилання на семінар NIPS, Yee Whye Teh виголосив виступ у NIPS на базі Бейсіанського глибокого навчання (відео: https://www.youtube.com/watch?v=LVBvJsTr3rg , слайди: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Я думаю, що в якийсь момент розмови Техе узагальнив байєсівське глибоке навчання як застосування байєсівської основи до ідей глибокого навчання (наприклад, вивчення заднього над вагами нейронної мережі) та глибокого байєсівського навчання як застосування ідей від глибокого навчання до Байєсівські рамки (як глибокі гауссові процеси або глибокі експоненціальні сім'ї). Звичайно, існують ідеї, які перетинають межу між двома поняттями, як, наприклад, варіаційні автокодери. Коли більшість людей говорять про байєсівське глибоке навчання, вони зазвичай мають на увазі будь-яке з двох, і це відображено у прийнятих роботах на семінарі, який ви пов’язали (разом із семінаром минулого року). Хоча ідеї відносяться до роботи Ніла щодо байєсівського вивчення нейронних мереж у 90-х роках (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), і з тих пір працювали, ймовірно, однією з важливіших останніх робіт буде оригінальний змінний папір для автокодування ( https://arxiv.org/pdf/1312.6114.pdf ).


10

Я б запропонував вам спочатку добре зрозуміти, що лежить в основі імовірнісної моделі в традиційній байєсівській нейронній мережі. Далі деякі терміни будуть написані жирним шрифтом . Будь ласка, спробуйте погуглити ці умови, щоб знайти більш детальну інформацію. Це лише основний огляд. Я сподіваюся, що це допомагає.

Розглянемо випадок регресії в нейронних мережах подачі і встановимо деяку позначення.

(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN())=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

iwij()bi()=1,,Li=1,Nj=1,,N1

gi():RN1Ri=1,,Li=1,N

Найчастіше використовуваними функціями активації є логістичний , ReLU (також позитивна частина ) та танх .

=1,,L

G():RN1RN:(z1(1),,zN1(1))(z1(),,zN()),
zi()=gi()(j=1N1wij()zj(1)+bi()),
i=1,,N

θ

θ={wij(),bi():=1,,L;i=1,N;j=1,,N1},
Gθ:RpRk
Gθ=G(L)G(L1)G(1).

У вищеописаному описі немає ймовірностей. Метою оригінального нейромережевого бізнесу є пристосування функції .

"Глибоке" в " Глибокому навчанні" означає існування багатьох внутрішніх шарів у нейромережах, що розглядаються.

{(xi,yi)Rp×Rk:i=1,,n}

i=1nyiGθ(xi)2,
θx, передбачувана відповідь - це просто , в якому є рішенням проблеми мінімізації. Золотим стандартом цієї мінімізації є зворотна розмноження, реалізована бібліотекою TensorFlow, використовуючи засоби паралелізації, наявні в сучасних GPU (для своїх проектів ознайомтеся з інтерфейсом Keras ). Крім того, зараз є апаратне забезпечення, яке інкапсулює ці завдання ( TPU ). Оскільки нейронна мережа загалом переосмислена, щоб уникнути перевиконання якоїсь форми регуляризації додається до рецепту, наприклад, підсумовуючи гребінь, як пенальті, до цільової функції, або використовуючиGθ^(x)θ^випадання під час тренувань. Джеффрі Хінтон (він же «Глибокий навчаючи хрещеного батька») та його співробітники винайшли багато з цих речей. Історії успіху глибокого навчання є скрізь.

Ймовірності були введені в картину наприкінці 80-х - початку 90-х з пропозицією ймовірності Гаусса і простий (можливо спрощений) Гауссовий пріоритет, припускаючи апріорну незалежність усіх ваг і ухилів у мережі:

Lx,y(θ,σ2)σnexp(12σ2i=1nyiGθ(xi)2),
π(θ,σ2)exp(12σ02=1Li=1N((bi())2+j=1N1(wij())2))×π(σ2).

Тому граничні пріори для ваг та зміщення є нормальними розподілами з нульовою середньою та загальною дисперсією . Цю оригінальну спільну модель можна зробити набагато активнішою, а компроміс - зробити висновок складніше.σ02

Байєсівське глибоке навчання стоїть перед складним завданням відбору проб із відповідного заднього розподілу. Після цього, прогнози робляться природним шляхом із заднім прогнозним розподілом , і невизначеності, пов'язані з цими прогнозами, повністю оцінюються. Святий Грааль в Байєсівському глибокому навчанні - це створення ефективного та масштабованого рішення. У цьому квесті було використано багато обчислювальних методів: відбір проб Метрополіс-Гастінгса та Гіббса , Гамільтоніанський Монте-Карло та, останнім часом, Варіаційний висновок .

Перегляньте відео конференції NIPS, щоб ознайомитись з деякими історіями успіху: http://bayesiandeeplearning.org/

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.