Я впроваджував VAE і помітив в Інтернеті дві різні реалізації спрощеної універсальної гауссової дивергенції KL. Оригінальна розбіжність, як тут, є
Я впроваджував VAE і помітив в Інтернеті дві різні реалізації спрощеної універсальної гауссової дивергенції KL. Оригінальна розбіжність, як тут, є
Відповіді:
Зауважте, замінивши з в останньому рівнянні ви відновлюєте попереднє (тобто ). Наводить мене на думку, що в першому випадку кодер використовується для передбачення дисперсії, тоді як у другому він використовується для прогнозування стандартного відхилення.
Обидві рецептури рівноцінні, а мета не змінюється.
Я вважаю, що відповідь простіша. У VAE люди зазвичай використовують багатоваріантний нормальний розподіл, який має коваріаційну матрицю замість дисперсії . Це виглядає заплутано в фрагменті коду, але має бажану форму.
Тут можна знайти виведення дивергенції KL для багатоваріантних нормальних розподілів: Виведення втрат дивергенції KL для VAE