Чи графічні моделі та машини Больцмана пов'язані математично?


10

Хоча я фактично займався програмуванням з машинами Больцмана на уроці фізики, я не знайомий з їх теоретичною характеристикою. Навпаки, я знаю скромну кількість про теорію графічних моделей (про перші кілька розділів книги « Графічні моделі» Лаурітцена ).

Запитання: Чи є якісь змістовні зв’язки між графічними моделями та машиною Больцмана? Чи є машина Больцмана типовою графічною моделлю?

Очевидно, що машина Больцмана є типом нейронної мережі. Я чув, що деякі нейронні мережі математично пов'язані з графічними моделями, а деякі - ні.

Питання, пов’язані з CrossValided, які не відповідають на моє запитання:
Це схоже на попереднє запитання, яке було задано раніше: Яке відношення між ієрархічними моделями, нейронними мережами, графічними моделями, байєсовими мережами? але є більш конкретним.

Більше того, прийнята відповідь на це питання не пояснює мою плутанину - навіть якщо вузли в стандартному графічному зображенні нейронної мережі не представляють випадкових змінних, це не обов'язково означає, що такого представлення не існує. Зокрема, я думаю про те, як вузли в типовому графічному поданні ланцюгів Маркова представляють набір можливих станів, а не випадкових змінних , але можна також створити графік, що показує умовні залежності залежності міжXiXi, що показує, що кожен ланцюг Маркова насправді є випадковим полем Маркова. У відповіді також сказано, що нейронні мережі (імовірно, включаючи машини Больцмана) є "дискримінаційними", але не розглядають більш детально, щоб пояснити, що означає це твердження, а також очевидне подальше питання "графічні моделі не є дискримінаційними?" адресований. Так само прийнята відповідь посилається на веб-сайт Кевіна Мерфі (я фактично читав деякі його кандидатські дисертації, коли дізнавався про байєсівські мережі), але цей веб-сайт обговорює лише байєсівські мережі і зовсім не згадує нейронні мережі - таким чином він не може висвітлити, як вони різні.

Це інше питання, мабуть, найбільше схоже на моє: математичне моделювання нейронних мереж як графічних моделей. Однак жоден з відповідей не був прийнятий, і він також дає лише посилання, але не пояснює посилання (наприклад, ця відповідь ). Хоча одного дня я, сподіваюся, зможу зрозуміти посилання, зараз я знаю базовий рівень знань і буду дуже вдячний за відповідь, максимально спрощену. Крім того, курс на Торонто, пов’язаний із головною відповіддю ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ), вирішує це, але не дуже детально. Крім того, примітки до однієї лекції, які могли б відповісти на моє запитання , не доступні для публіки.

25 березня Лекція 13b: Вірогідні сітки 7:43. Для цього слайда пам’ятайте про машини Boltzmann. У нас теж є приховані одиниці та видимі одиниці, і все це ймовірно. БМ і СБН мають більше спільного, ніж вони мають відмінності. 9:16 У наш час "Графічні моделі" іноді розглядаються як особлива категорія нейронних мереж, але в історії, описаній тут, вони вважалися дуже різними типами систем.

Відповіді:


7

Машини «Больцман» проти машин «Больцман» з обмеженими можливостями

AFAIK машини Больцмана є типовою графічною моделлю, а модель, пов'язана з нейронними мережами, - це машини з обмеженим набором Больцмана (RBM).

Різниця між машинами Больцмана і машинами з обмеженим набором Больцмана з книги " Машинне навчання" ("Machine Learning A Probabilistic Perspective") введіть тут опис зображення

RBMs проти нейронних мереж

Для УЗД (посилання: Практичний посібник з навчання машин Больцмана з обмеженими можливостями Джеффрі Хінтона ) де і відповідають видимим і прихованим одиницям на наведеному вище малюнку, а - функція Sigmoid.

p(v,h)=1Zexp(aivi+bjhj+vihjwij)
p(hj=1|v)=σ(bj+viwij)
v h σ ( )
p(vi=1|h)=σ(ai+hjwij)
vhσ()

Умовні ймовірності обчислюються в однаковій формі мережевих шарів, тому підготовлені ваги МПВ можуть використовуватися безпосередньо як ваги нейронних мереж або як відправна точка навчання.

Я вважаю, що сам RBM є скоріше графічною моделлю, ніж типом нейронної мережі, оскільки він непрямий, він має чітко визначені умовні незалежності, і він використовує власні алгоритми навчання (наприклад, контрастна розбіжність).


2
Приємно, це справді чудова відповідь з чудовим посиланням. Також змушує мене ще швидше зайнятися читанням книги професора Мерфі. Я вдячний за час, який ви взяли на цю грунтовну відповідь.
Chill2Macht

2
@William радий допомогти :)
dontloo

2
Хороша відповідь. Чи можете ви задокументувати позначення трохи більше? (Я нещодавно прочитав щось пов’язане, мабуть, тому я розпізнаю видимі вузли, приховані вузли, логістична функція, але інші, можливо, не можуть.) Також може бути добре включити повне цитування , щоб захистити від посилання -рота. h = σ ( ) =v=h=σ()=
GeoMatt22

2
@ GeoMatt22 дякую, я оновив відповідь.
dontloo

3

Це просто підтверджує / підтверджує прийняту відповідь, що машини Больцмана справді є особливим випадком графічної моделі. Зокрема, це питання розглядається на стор. 127-127 Коллера, Фрідмана, Імовірнісні графічні моделі: Принципи та методики , у вікні 4.C.

Одним з найбільш ранніх типів мережевих моделей Маркова є модель Ізінга, яка вперше виникла в статистичній фізиці як модель для енергії фізичної системи, що включає систему взаємодіючих атомів ... Пов’язана з моделлю Ізінга - це машинний розподіл Больцмана .. отримана енергія може бути переформульована з урахуванням моделі Ізінга (вправа 4.12).

Як модель Ізінга, спочатку концепція з літератури статистичної механіки, може бути сформульована як графічна модель, детально наведено в прикладі 3.1, розділ 3.3., На стор. 41-43 Вайнрайт, Джордан, Графічні моделі, Експоненціальна Сім'ї та варіативні умовиводи .

Мабуть, модель Ізінга послужила основою області графічних моделей наприкінці 1970-х - початку 1980-х рр., Принаймні, виходячи з того, що говорить Стеффен Лаурітцен у передмові та вступі до своєї книги " Графічні моделі" . Це тлумачення також підтримується розділом 4.8 Коллера та Фрідмана вище цитованою книгою.

Розробка машин Больцмана з моделі Ізінга, можливо, була самостійним явищем, заснованого також на тому ж розділі Коллера та Фрідмана, який стверджує, що "машини Больцмана були вперше запропоновані Гінтоном та Сейновським (1983)", що, здається, має відбулася після первинної роботи з розробки випадкових полів Маркова як узагальнення моделі Ізінга, хоча робота над цим документом могла початися набагато раніше 1983 року.


Моя плутанина щодо цього стосунку, коли я писав це питання більше року тому, випливав із того, що я вперше зіткнувся як з моделлю Ізінга, так і з моделлю машини Больцмана для нейронів, в літературі з фізики. Як згадують Коллер та Фрідман, література в статистичній фізичній спільноті про модель Ізінга та пов'язані з ними поняття справді велика.

На мій досвід це також досить острівне, в тому сенсі, що, хоча статистики та комп'ютерні вчені, що вивчають графічні моделі, згадають про те, як це поле пов'язане зі статистичною механікою, жодна посилання, яку я ніколи не знайшов у літературі статистичної фізики, не згадує про зв'язки з іншими полями чи намагається це використати. (Звідси змушує мене сумніватися і збивати з пантелику думку про те, що можуть бути такі зв’язки з іншими полями.)

Для прикладу точки зору фізика як на модель Ізінга, так і на машину Больцмана, дивіться підручник з курсу, де я вперше дізнався про нього. Він також згадує про польові методи, якщо я правильно пам’ятаю, про щось обговорювалося також у цитованій вище статті Джордана та Уейнрайта.


2
зв'язок може бути дуже тонким, і базується, головним чином, на використанні функції розподілу, яка лежить в основі статистичної механіки, і що береться експоненція суми внутрішніх добутків. Функція softmax також використовує цю форму, тому номенклатура підтримує спадщину термінів, і багато фізиків працюють (редагують) в ML (наприклад, Christopher Bishop).
Вас
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.