KL Втрата з одиницею Гаусса

10

Я впроваджував VAE і помітив в Інтернеті дві різні реалізації спрощеної універсальної гауссової дивергенції KL. Оригінальна розбіжність, як тут, є

К L_{л о с с} = журнал (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + ({мк}_{1} - {мк}_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$ Якщо припустити, що наша попередня - це одиниця гаусса, тобто

μ_{2} = 0

$\mu_2=0$ і

σ_{2} = 1

$\sigma_2=1$ , це спрощує вниз до

К L_{л о с с} = - журнал (σ_{1}) + \frac{σ_{1}^{2} + {мк}_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

К L_{л о с с} = - \frac{1}{2} (2 журнал (σ_{1}) - σ_{1}^{2} - {мк}_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$ І ось тут спочиває моя розгубленість. Хоча я знайшов кілька незрозумілих репозитів github з вищезазначеною реалізацією, але я, як правило, використовую:

= - \frac{1}{2} (журнал (σ_{1}) - σ_{1} - {мк}_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ Наприклад, в офіційному навчальному посібнику щодо автокодування Keras . Моє запитання тоді, що мені не вистачає між цими двома? Основна відмінність - це скидання коефіцієнта 2 на термін журналу та не зіставлення дисперсії. Аналітично я використовував останнє з успіхом, для чого його варті. Заздалегідь дякую за будь-яку допомогу!

— groovyDragon
джерело

7

Зауважте, замінивши $\sigma_1$ з $\sigma_1^2$ в останньому рівнянні ви відновлюєте попереднє (тобто $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$ ). Наводить мене на думку, що в першому випадку кодер використовується для передбачення дисперсії, тоді як у другому він використовується для прогнозування стандартного відхилення.

Обидві рецептури рівноцінні, а мета не змінюється.

— Ф. Евлангелі
джерело

Я не думаю, що це може бути рівнозначним. Так, вони обоє мінімізовані за нуль

μ

$\mu$ і одиниця

σ

$\sigma$ . Однак у вихідному рівнянні (із дисперсією) штраф за переміщення

σ

$\sigma$ від єднання набагато більше, ніж у другому рівнянні (на основі стандартного відхилення). Штраф за варіації в

μ

$\mu$ однакова для обох, і помилка відновлення була б однаковою, тому використання другої версії різко змінює відносну важливість відхилень

σ

$\sigma$ від єдності. Що я пропускаю?

— TheBamf

0

Я вважаю, що відповідь простіша. У VAE люди зазвичай використовують багатоваріантний нормальний розподіл, який має коваріаційну матрицю $\Sigma$ замість дисперсії $\sigma^2$ . Це виглядає заплутано в фрагменті коду, але має бажану форму.

Тут можна знайти виведення дивергенції KL для багатоваріантних нормальних розподілів: Виведення втрат дивергенції KL для VAE

— Дмитро Гребенюк
джерело