Математичне моделювання нейронних мереж як графічних моделей


12

Я намагаюся зробити математичний зв’язок між нейронною мережею та графічною моделлю.

У графічних моделях ідея проста: розподіл ймовірностей розподіляється відповідно до кліків на графіку, при цьому потенціали, як правило, належать до експоненціальної родини.

Чи існує рівнозначне міркування для нейронної мережі? Чи можна виразити розподіл ймовірності над одиницями (змінними) в машині з обмеженим набором Больцмана або CNN як функцію їх енергії, або добуток енергій між одиницями?

Також моделюється розподіл ймовірностей мережею RBM або глибокою вірою (наприклад, із CNN) родини експонентів?

Я сподіваюся знайти текст, який формалізує зв'язок між цими сучасними типами нейронних мереж та статистикою так само, як Джордан і Уейнрайт зробили для графічних моделей зі своїми графічними моделями, експонентними сім'ями та варіаційними висновками . Будь-які покажчики були б чудовими.


1
Про головну проблему тут полягає в тому, що нейронні мережі насправді не є мережами; вони практично мають фіксовану топологію і, таким чином, мають незначний шанс зберігати будь-яку інформацію всередині неї.


@jerad Дякую, я не читав цю публікацію. Моє запитання не стільки в тому, як поєднувати ці моделі (наприклад, наприклад, коли говорить Ян "using deep nets as factors in an MRF"), а в тому, як дивитися на глибоку сітку як на вірогідний факторний графік. Коли говорить Янн Лекун "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", мені цікаво бачити цей зв'язок математично.
Амеліо Васкес-Рейна

@mbq, ми бачили деякі форми зберігання інформації компонентів прихованого шару, наприклад https://distill.pub/2017/feature-visualization/( як нейронні мережі формують своє розуміння зображень ), оскільки складне зображення містить компоненти об'єктів, представлені прихованими вузлами шару. Ваги можуть "змінювати" "топологію" недискретно. Хоча я цього не бачив, деякі методи можуть включати фактори усадки для видалення країв і, отже, змінити початкову топологію
Vass

Відповіді:


6

Ще одним хорошим вступом з цього питання є курс CSC321 в Університеті Торонто, а також курс Neuralnets-2012-001 з курсу Coursera, який викладав Джеффрі Хінтон.

З відео на "Вірогідних мереж":

Графічні моделі

Ранні графічні моделі використовували експертів для визначення структури графа та умовних ймовірностей. Графіки були рідко пов'язані, і фокус робився на правильному висновку, а не на навчанні (знання надходили від експертів).

Нейронні мережі

Для нейронних мереж навчання було центральним. Жорсткі проводки знань були не круті (добре, може, трохи). Навчання відбувається завдяки вивченню даних про навчання, а не від експертів. Нейронні мережі не ставили за мету інтерпретацію розрідженого зв’язку, щоб полегшити висновок. Тим не менш, існують нейромережеві версії мереж вірування.


Я розумію, що мережі вірування зазвичай занадто щільно пов'язані, а їхні кліки занадто великі, щоб їх можна було інтерпретувати. Вірогідні мережі використовують сигмоїдну функцію для інтеграції входів, тоді як безперервні графічні моделі зазвичай використовують функцію Гаусса. Сигмоїд полегшує мережу тренуватися, але її складніше інтерпретувати з точки зору ймовірності. Я вважаю, що обидва є в експоненціальній сім'ї.

Я далеко не фахівець з цього питання, але конспекти лекцій та відео - чудовий ресурс.


1
Ласкаво просимо на сайт. Ми намагаємось створити постійний сховище якісної статистичної інформації у вигляді запитань та відповідей. Таким чином, ми насторожено ставимося до відповідей, що стосуються лише посилань, завдяки linkrot. Чи можете ви опублікувати повне цитування та резюме інформації за посиланням, якщо вона загине?
gung - Відновіть Моніку

Це справді приємно. Дякуємо, що додали цю інформацію та ласкаво просимо до резюме.
gung - Відновити Моніку

Я маю зазначити, що інформація в першій половині вашої відповіді не зовсім точна, що, мабуть, має на увазі використання "ранніх графічних моделей" (має бути "дуже рано"). Дуже довго використовувались графічні моделі для вивчення всіх аспектів його архітектури так само, як це мають нейронні мережі. Але ваша пізніша пропозиція щодо сигмоїдів, що займають місце гауссів у факторних графах, цікава!
GuSuku

4

Radford Neal зробив непогану роботу в цій галузі, яка може вас зацікавити, включаючи деяку пряму роботу з прирівнювання байєсівських графічних моделей до нейронних мереж. (Його дисертація, мабуть, стосувалася цієї конкретної теми.)

Я недостатньо знайомий з цією роботою, щоб дати розумний підсумок, але я хотів дати вам вказівник у випадку, якщо ви вважаєте це корисним.


З того, що я розумію з творів Ніла, Макея тощо, вони використовують Байєсову оптимізацію, де параметри для оптимізації є нейронними вагами та упередженнями, навіть показуючи, що нормалізація нейронних мереж L2 може розглядатися як Гауссова раніше ваги. Ця програма продовжувала включати кількість прихованих шарів, нейронів у кожному шарі тощо серед змінних оптимізації.
GuSuku

Але це відрізняється від запитуваного в ОП, оскільки проектування архітектури нейронної мережі для спроб у наступному циклі - це лише один особливий випадок експериментального проектування з використанням байєсівських моделей як двигуна гіпердизайну. Я думаю, що ОП попросило це скласти карту між нейронною мережею та байєсівським моделюванням на "одному рівні".
GuSuku

4

Це може бути стара тема, але все-таки відповідне питання.

Найвизначнішим прикладом зв’язків між нейронними мережами (NN) та ймовірнісними графічними моделями (PGM) є посилання між машинами Больцмана (та його варіантами, як обмежений BM, глибокий BM тощо) та непрямими PGM Марківського випадкового поля.

Аналогічно, Берегові мережі (і це такі варіанти, як Deep BN тощо) - це тип спрямованих PGM баєсових графіків

Докладніше див:

  1. Ян Лекун, " Навчальний посібник з енергетичного навчання " (2006)
  2. Йошуа Бенджо, Ян Гудфеллоу та Аарон Курвіль, "Поглиблене навчання", Ч. 16 і 20 (книга, що готується, на момент написання цього запису)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.