Що таке варіаційні автокодери та до яких навчальних завдань вони використовуються?

Навіть незважаючи на те, що варіативні автокодери (VAE) легко впроваджувати та навчати, пояснення їх зовсім не просте, оскільки вони поєднують поняття з глибокого навчання та варіаційного байєсу, а громади глибокого навчання та ймовірнісного моделювання використовують різні терміни для одних і тих же концепцій. Таким чином, пояснюючи VAE, ви ризикуєте або сконцентруватися на частині статистичної моделі, не залишаючи читача поняття про те, як реально його реалізувати, або навпаки сконцентруватися на мережевій архітектурі та функції втрат, в якій, здається, є термін Куллбека-Лейблера витягнуте з повітря. Я спробую тут прорізати середнє місце, починаючи з моделі, але даю достатньо деталей, щоб реально реалізувати її на практиці або зрозуміти чиюсь іншу реалізацію.

VAE - це генеративні моделі

На відміну від класичних (розріджених, позначаючих тощо) автоенкодерів, VAE - це генеративні моделі, як GAN. Під генеративною моделлю я маю на увазі модель, яка вивчає розподіл ймовірностей над вхідним простором . Це означає, що після того, як ми навчили таку модель, ми зможемо відібрати з (нашого наближення) . Якщо наш навчальний набір виготовлений з рукописних цифр (MNIST), то після тренування генеративна модель здатна створювати зображення, схожі на рукописні цифри, хоча вони не є "копіями" зображень у навчальному наборі. $p(\mathbf{x})$ $\mathcal{x}$ $p(\mathbf{x})$

Навчання розподілу зображень у навчальному наборі означає, що зображення, схожі на рукописні цифри, повинні мати велику ймовірність генерування, тоді як зображення, схожі на Веселий Роджер або випадковий шум, повинні мати низьку ймовірність. Іншими словами, це означає дізнатись про залежності між пікселями: якщо наше зображення - зображення 289 у сірий масштаб від MNIST, пікселів, модель повинна дізнатися, що якщо піксель дуже яскравий, то існує значна ймовірність того, що деякі сусідні пікселі теж яскраві, що якщо у нас довга похила лінія яскравих пікселів, у нас може бути ще одна менша, горизонтальна лінія пікселів вище цієї (7) тощо. $28\times 28=784$

VAE є прихованими змінними моделями

VAE - латентна модель змінних : це означає, що , випадковий вектор інтенсивності 784 пікселів ( спостережувані змінні), моделюється як (можливо, дуже складна) функція випадкового вектора меншої розмірності, компоненти якої є незастереженими ( прихованими ) змінними. Коли така модель має сенс? Наприклад, у випадку MNIST ми вважаємо, що рукописні цифри належать до багатовимірного розміру, значно меншому, ніж розмірність $\mathbf{x}$ $\mathbf{z}\in\mathcal{Z}$ $\mathcal{x}$ , оскільки переважна більшість випадкових розташувань інтенсивності 784 пікселів зовсім не виглядають як рукописна цифра. Інтуїтивно ми очікуємо, що розмір буде принаймні 10 (кількість цифр), але він, швидше за все, більший, оскільки кожну цифру можна записати різними способами. Деякі відмінності неважливі для якості кінцевого зображення (наприклад, глобальні обертання та переклади), але інші важливі. Тому в цьому випадку латентна модель має сенс. Детальніше про це пізніше. Зауважте, що, дивовижно, навіть якщо наша інтуїція говорить нам, що розмір має становити приблизно 10, ми напевно можемо використовувати лише 2 латентні змінні для кодування набору даних MNIST VAE (хоча результати не будуть досить гарними). Причина полягає в тому, що навіть одна реальна змінна може кодувати нескінченно багато класів, оскільки вона може припускати всі можливі цілі значення та багато іншого. Звичайно, якщо класи мають значне збіг серед них (таких як 9 і 8 або 7 та I в MNIST), навіть найскладніша функція лише двох прихованих змінних зробить погану роботу з генерування чітко помітних зразків для кожного класу. Детальніше про це пізніше.

VAE передбачають багатоваріантний параметричний розподіл (де - параметри ), і вони дізнаються параметри багатоваріантний розподіл. Використання параметричного pdf для , що запобігає зростанню кількості параметрів VAE без обмежень із ростом навчального набору, у VAE lingo називається амортизацією (так, я знаю ...). $q(\mathbf{z}\vert\mathbf{x},\boldsymbol{\lambda})$ $\boldsymbol{\lambda}$ $q$ $\mathbf{z}$

Мережа декодера

Ми починаємо з декодерної мережі, тому що VAE - це генеративна модель, і єдиною частиною VAE, яка фактично використовується для генерування нових зображень, є декодер. Мережа кодерів використовується лише в час виведення (навчання).

Мета мережі декодера - генерувати нові випадкові вектори що належать до вхідного простору , тобто нові зображення, починаючи з реалізації латентного вектора . Це чітко означає, що він повинен засвоїти умовний розподіл . Для VAE цей розподіл часто вважається багатоваріантним гауссом ¹ : $\mathbf{x}$ $\mathcal{X}$ $\mathbf{z}$ $p(\mathbf{x}\vert\mathbf{z})$

p_{ϕ} (x | z) = N (x | μ (z; ϕ), σ (z; ϕ)^{2} I)

$p_{\boldsymbol{\phi}}(\mathbf{x}\vert\mathbf{z}) = \mathcal{N}(\mathbf{x}|\boldsymbol{\mu}(\mathbf{z}; \boldsymbol{\phi}), \boldsymbol{\sigma}(\mathbf{z}; \boldsymbol{\phi})^2I)$

$\boldsymbol{\phi}$ - вектор ваг (і зміщення) мережі кодера. Вектори та є складними, невідомими нелінійними функціями, моделюється мережею декодера: нейронні мережі є потужними нелінійними аппроксиматорами функцій. $\boldsymbol{\mu}(\mathbf{z};\boldsymbol{\phi})$ $\boldsymbol{\sigma}(\mathbf{z}; \boldsymbol{\phi})$

Як зазначає @amoeba в коментарях, існує вражаюча схожість між декодером і класичною моделлю прихованих змінних: Факторний аналіз. У Факторному аналізі ви припускаєте модель:

x | z \sim N (W z + μ, σ^{2} I), z \sim N (0, I)

$\mathbf{x}\vert\mathbf{z}\sim\mathcal{N}(\mathbf{W}\mathbf{z}+\boldsymbol{\mu}, \boldsymbol{\sigma}^2I),\ \mathbf{z}\sim\mathcal{N}(0,I)$

Обидві моделі (FA та декодер) припускають, що умовний розподіл спостережуваних змінних на прихованих змінних є гауссовим, а самі є стандартними гауссами. Різниця полягає в тому, що декодер не припускає, що середнє значення лінійне в , і не передбачає, що стандартне відхилення є постійним вектором. Навпаки, вона моделює їх як складні нелінійні функції . У цьому відношенні це можна розглядати як нелінійний факторний аналіз. Дивіться тут $\mathbf{x}$ $\mathbf{z}$ $\mathbf{z}$ $p(\mathbf{x}|\mathbf{z})$ $\mathbf{z}$ $\mathbf{z}$ для глибокого обговорення цього зв'язку між FA та VAE. Оскільки FA з ізотропною матрицею коваріації є лише PPCA, це також пов'язане з добре відомим результатом, який лінійний автокодер зменшує до PCA.

Повернемося до декодера: як ми дізнаємося ? Інтуїтивно ми хочемо, щоб приховані змінні збільшували ймовірність генерації у навчальному наборі . Іншими словами, ми хочемо обчислити задній розподіл ймовірностей , враховуючи дані: $\boldsymbol{\phi}$ $\mathbf{z}$ $\mathbf{x}_i$ $D_n$ $\mathbf{z}$

p (z | x) = \frac{p_{ϕ} (x | z) p (z)}{p (x)}

$p(\mathbf{z}\vert\mathbf{x})=\frac{p_{\boldsymbol{\phi}}(\mathbf{x}\vert\mathbf{z})p(\mathbf{z})}{p(\mathbf{x})}$

Ми припускаємо, що до , і нам залишається звичайна проблема Байєсового висновку, що обчислення ( докази ) є важким ( багатовимірний інтеграл). Більше того, оскільки тут невідомо, ми все одно не можемо обчислити його. Введіть Variational Inference - інструмент, який дає ім'я Variational Autoencoders. $\mathcal{N}(0,I)$ $\mathbf{z}$ $p(\mathbf{x})$ $\boldsymbol{\mu}(\mathbf{z};\boldsymbol{\phi})$

Варіаційні умовиводи для моделі VAE

Варіаційний висновок - це інструмент для виконання приблизного байєсівського висновку для дуже складних моделей. Це не надто складний інструмент, але моя відповідь вже занадто довга, і я не буду вникати в детальне пояснення VI. Ви можете поглянути на цю відповідь та посилання на неї, якщо вам цікаво:

/stats//a/270569/58675

Досить сказати, що VI шукає наближення до у параметричному сімействі розподілів , де, як зазначалося вище, - параметри сім'ї. Ми шукаємо параметри, які мінімізують розбіжність Куллбека-Лейблера між нашим цільовим розподілом та : $p(\mathbf{z}\vert \mathbf{x})$ $q(\mathbf{z}\vert \mathbf{x},\boldsymbol{\lambda})$ $\boldsymbol{\lambda}$ $p(\mathbf{z}\vert \mathbf{x})$ $q(\mathbf{z}\vert \mathbf{x},\boldsymbol{\lambda})$

min_{λ} D [p (z | x) | | q (z | x, λ)]

$\min_{\boldsymbol{\lambda}}\mathcal{D}[p(\mathbf{z}\vert \mathbf{x})\vert\vert q(\mathbf{z}\vert \mathbf{x},\boldsymbol{\lambda})]$

Знову ж таки, ми не можемо мінімізувати це безпосередньо, оскільки визначення дивергенції Куллбека-Лейблера включає дані. Представляючи ELBO (Evidence Lower BOund) і після деяких алгебраїчних маніпуляцій, ми нарешті дістаємося до:

E L B O (λ) = E_{q (z | x, λ)} [\log p (x | z)] - D [(q (z | x, λ) | | p (z)]

$ELBO(\boldsymbol{\lambda})= E_{q(\boldsymbol{z}\vert \mathbf{x},\boldsymbol{\lambda})}[\log p(\mathbf{x}\vert\boldsymbol{z})]-\mathcal{D}[(q(\boldsymbol{z}\vert \mathbf{x},\boldsymbol{\lambda})\vert\vert p(\boldsymbol{z})]$

Оскільки ELBO є нижньою межею доказів (див. Вищенаведене посилання), максимізація ELBO не зовсім еквівалентна максимальній вірогідності даних, наданих (зрештою, VI є інструментом для приблизного байєсівського умовиводу), але йде в правильному напрямку. $\boldsymbol{\lambda}$

Щоб зробити висновок, нам потрібно вказати параметричне сімейство . У більшості VAE ми обираємо багатоваріантний некоррельований гауссова розподіл $q(\boldsymbol{z}\vert \mathbf{x},\boldsymbol{\lambda})$

q (z | x, λ) = N (z | μ (x), σ^{2} (x) I)

$q(\mathbf{z}\vert \mathbf{x},\boldsymbol{\lambda}) = \mathcal{N}(\mathbf{z}\vert\boldsymbol{\mu}(\mathbf{x}), \boldsymbol{\sigma}^2(\mathbf{x})I)$

Це той самий вибір, який ми зробили для , хоча ми, можливо, обрали інше параметричне сімейство. Як і раніше, ми можемо оцінити ці складні нелінійні функції, ввівши модель нейронної мережі. Оскільки ця модель приймає вхідні зображення та повертає параметри розподілу прихованих змінних, ми називаємо її мережею кодера . Як і раніше, ми можемо оцінити ці складні нелінійні функції, ввівши модель нейронної мережі. Оскільки ця модель приймає вхідні зображення та повертає параметри розподілу прихованих змінних, ми називаємо її мережею кодера . $p(\mathbf{x}\vert\mathbf{z})$

Мережа кодера

Також його називають мережею виведення , вона використовується лише під час навчання.

Як зазначалося вище, кодер повинен наближати та , таким чином, якщо у нас, скажімо, 24 латентних змінних, вихід кодер - вектор . Кодер має вагу (і зміщення) . Щоб дізнатися , ми можемо, нарешті, записати ELBO з точки зору параметрів та мережі датчика та декодера, а також заданих навчальних значень: $\boldsymbol{\mu}(\mathbf{x})$ $\boldsymbol{\sigma}(\mathbf{x})$ $d=48$ $\boldsymbol{\theta}$ $\boldsymbol{\theta}$ $\boldsymbol{\theta}$ $\boldsymbol{\phi}$

E L B O (θ, ϕ) = \sum_{i} E_{q_{θ} (z | x_{i}, λ)} [\log p_{ϕ} (x_{i} | z)] - D [(q_{θ} (z | x_{i}, λ) | | p (z)]

$ELBO(\boldsymbol{\theta},\boldsymbol{\phi})= \sum_i E_{q_{\boldsymbol{\theta}}(\boldsymbol{z}\vert \mathbf{x}_i,\boldsymbol{\lambda})}[\log p_{\boldsymbol{\phi}}(\mathbf{x}_i\vert\boldsymbol{z})]-\mathcal{D}[(q_{\boldsymbol{\theta}}(\boldsymbol{z}\vert \mathbf{x}_i,\boldsymbol{\lambda})\vert\vert p(\boldsymbol{z})]$

Ми можемо нарешті зробити висновок. Протилежна ELBO, як функція і , використовується як функція втрати VAE. Ми використовуємо SGD, щоб мінімізувати ці втрати, тобто максимізувати ELBO. Оскільки ELBO є нижньою межею доказів, це йде в напрямку максимізації доказів і, таким чином, генерує нові зображення, оптимально схожі на ті, що є у навчальному наборі. Перший термін в ELBO - це очікувана негативна ймовірність вірогідності заданих навчальних точок, таким чином він заохочує декодер створювати зображення, подібні до навчальних. Другий термін можна інтерпретувати як регуляризатор: він спонукає кодер генерувати розподіл для прихованих змінних, подібний до $\boldsymbol{\theta}$ $\boldsymbol{\phi}$ $p(\boldsymbol{z})=\mathcal{N}(0,I)$ . Але запровадивши спочатку модель ймовірності, ми зрозуміли, звідки походить цілий вираз: мінімізація розбіжності Куллабка-Лейблера між приблизною задньою та модель posterior . ² $q_{\boldsymbol{\theta}}(\boldsymbol{z}\vert \mathbf{x},\boldsymbol{\lambda})$ $p(\boldsymbol{z}\vert \mathbf{x},\boldsymbol{\lambda})$

Після того, як ми дізналися та шляхом максимізації , ми можемо викинути кодер. Відтепер для створення нових зображень просто зразок та розповсюдження його через декодер. Виходи декодера будуть зображеннями, схожими на ті, що в навчальному наборі. $\boldsymbol{\theta}$ $\boldsymbol{\phi}$ $ELBO(\boldsymbol{\theta},\boldsymbol{\phi})$ $\boldsymbol{z}\sim \mathcal{N}(0,I)$

Список літератури та подальше читання

оригінал паперу: Автокодування коду Варіаційного Байєса
приємний підручник з кількома незначними вкрапленнями : Підручник з різних автоінкодерів
як зменшити розмитість зображень, створених вашим VAE, при цьому отримуючи приховані змінні, які мають візуальне (перцептивне) значення, так що ви можете "додавати" функції (усмішка, сонцезахисні окуляри тощо) до створених зображень : Постійний змінний автокодер
ще більше покращуючи якість зображень, створених за допомогою VAE, використовуючи гауссові версії авторегресивних автокодерів: вдосконалене варіаційне виведення із зворотним автоматичним потоком
нові напрямки дослідження та глибше розуміння плюсів і мінусів моделі VAE: До глибшого розуміння моделей варіативного автокодування та ІНФЕРЕНЦІЙНОЇ СУБОПТИМАЛІТНОСТІ В РІЗНИХ АВТОЕНКОДЕРІВ

_{¹ Це припущення не є строго необхідним, хоча воно спрощує наш опис VAE. Однак, залежно від додатків, ви можете припустити інший розподіл для . Наприклад, якщо - вектор бінарних змінних, гауссова не має сенсу, і можна вважати багатоваріантним Бернуллі. $p_{\phi}(\mathbf{x}\vert\mathbf{z})$ $\mathbf{x}$ $p$}

_{² Вираз ELBO своєю математичною елегантністю приховує два основних джерела болю для практикуючих VAE. Один - середній термін . Це фактично вимагає обчислення очікування, яке вимагає взяти кілька зразків з $E_{q_{\boldsymbol{\theta}}(\boldsymbol{z}\vert \mathbf{x}_i,\boldsymbol{\lambda})}[\log p_{\boldsymbol{\phi}}(\mathbf{x}_i\vert\boldsymbol{z})]$ $q_{\boldsymbol{\theta}}(\boldsymbol{z}\vert \mathbf{x}_i,\boldsymbol{\lambda})$ . Враховуючи розміри задіяних нейронних мереж та низький коефіцієнт конвергенції алгоритму SGD, необхідність малювати декілька випадкових вибірок при кожній ітерації (насправді для кожної міні-партії, що ще гірше), забирає багато часу. Користувачі VAE вирішують цю проблему дуже прагматично, обчислюючи це очікування за допомогою одного (!) Випадкової вибірки. Інша проблема полягає в тому, що для підготовки двох нейронних мереж (кодер і декодер) за допомогою алгоритму зворотного розповсюдження мені потрібно вміти диференціювати всі кроки, що беруть участь у поширенні вперед, від кодера до декодера. Оскільки декодер не є детермінованим (оцінювання його виходу вимагає виведення з багатовимірного гаусса), навіть не має сенсу запитувати, чи є це диференційована архітектура. Рішення цього - хитрість репараметризації .}

— DeltaIV
джерело

Коментарі не для розширеного обговорення; ця розмова переміщена до чату .

— gung - Відновіть Моніку

+6. Я закладаю тут щедрості, тому, сподіваюся, ви отримаєте додаткові результати. Якщо ви хочете щось покращити у цій публікації (навіть якщо тільки форматування), зараз настав час: кожна редакція перетягне цю тему на головну сторінку і змусить більше людей звернути увагу на суму. Крім цього, я трохи більше замислювався над концептуальним зв’язком між оцінкою ЕМ моделі FA та навчанням VAE. Ви посилаєтесь на слайди лекцій, які детально розглядають те, наскільки тренування VAE схожі на ЕМ, але це може бути чудово, щоб передати частину інтуїції в цю відповідь.

— Амеба каже, що повернеться Моніка

(Я читав про це, і я думаю про те, щоб написати "інтуїтивну / концептуальну" відповідь тут, зосередившись на кореспонденції FA / PPCA <--> VAE з точки зору навчання ЕМ <--> VAE, але я не думаю Я знаю достатньо для авторитетної відповіді ... Тож я б набагато краще, щоб хтось інший це написав :-)

— амеба каже, що повернеться Моніка

Дякую за щедроту! Деякі основні зміни внесені. Я не звертатимусь до матеріалів, що стосуються ЕМ, тому що я недостатньо знаю про ЕМ, і тому що у мене є достатньо часу (ви знаєте, скільки часу знадобиться мені на впровадження основних змін ... ;-)

— DeltaIV