Фокус цього питання
"Як можна ... ми обробляємо дані з істинного розподілу та дані з генеративної моделі в одній ітерації?
Аналіз Основної публікації
На переліченій сторінці « Розуміння генеративних змагальних мереж» (2017) доктор-кандидат Даніель Сієта правильно посилається на Генеральні змагальні мережі, Goodfellow, Поугет-Абаді, Мірза, Сю, Уорд-Фарлі, Озер, Курвіль та Бенджо, червень 2014 року . Це абстрактні твердження: "Ми пропонуємо нову основу для оцінки генеративних моделей за допомогою змагального процесу, в якому ми одночасно навчаємо дві моделі ..." Цей оригінальний документ визначає дві моделі, визначені як MLP (багатошарові перцептрони).
- Генеративна модель, Г
- Дискримінаційна модель, D
Ці дві моделі керуються таким чином, коли одна забезпечує форму негативного зворотного зв’язку щодо іншої, отже, термін змагальний.
- G навчений захоплювати розподіл даних набору прикладів досить добре, щоб обдурити D.
- D проходить навчання, щоб виявити, чи є його вхідними макетами G чи набором прикладів для системи GAN.
(Набір прикладів для системи GAN іноді називають реальними зразками, але вони можуть бути не більш реальними, ніж створені. Обидва - це числові масиви в комп'ютері, один набір із внутрішнім походженням, а другий із зовнішнім Походження зовнішніх даних від камери, спрямованої на фізичну сцену, не стосується роботи GAN.)
Імовірнісно, що обман D є синонімом до максимізації ймовірності того, що D генерує стільки помилкових позитивних і помилкових негативів, скільки правильних категоризацій, 50% кожен. В інформатиці це означає, що межа інформації D має G підходів 0, оскільки t наближається до нескінченності. Це процес максимізації ентропії G з точки зору D, таким чином, термін перехресна ентропія.
Як здійснюється конвергенція
Оскільки функція втрат, відтворена в записі Sieta за 2017 рік у запитанні, є функцією D, розробленою для мінімізації перехресної ентропії (або кореляції) між двома розподілами при застосуванні до повного набору балів за заданий тренувальний стан.
Н( ( х1, у1) , D ) = 1D ( x1)
Існує окрема функція втрат для G, призначена для максимізації поперечної ентропії. Зауважте, що в системі є ДВА рівня деталізації навчання.
- Ця гра рухається у грі для двох гравців
- Таблиця навчальних зразків
Вони виробляють вкладені ітерації із зовнішньою ітерацією наступним чином.
- Навчання G надходжень за допомогою функції втрат Г.
- Модельні схеми введення генеруються з G при його поточному стані підготовки.
- Навчання D надходжень за допомогою функції втрати D.
- Повторіть, якщо перехресна ентропія ще не є достатньо максимальною, D все одно може розрізнити.
Коли D нарешті програє гру, ми досягли своєї мети.
- G відновив розподіл даних про навчання
- D зводився до неефективності ("1/2 ймовірності скрізь")
Чому одночасне навчання необхідне
Якби обидві моделі не навчалися вперед і назад для імітації одночасності, конвергенція в змагальній площині (зовнішня ітерація) не відбулася б за унікальним рішенням, заявленим у документі 2014 року.
Більше інформації
Поза питанням, наступний предмет, який цікавиться роботою Sieta, полягає в тому, що «погана конструкція функції втрат генератора» може призвести до недостатнього значення градієнта, щоб керувати спуском і створювати те, що іноді називають насиченням. Насичення - це просто зменшення сигналу зворотного зв’язку, який спрямовує спуск при зворотному поширенні до хаотичного шуму, що виникає в результаті округлення плаваючої точки. Термін походить від теорії сигналів.
Я пропоную вивчити документ про 2014 рік Goodfellow et alia (досвідчені дослідники), щоб дізнатися про технологію GAN, а не про сторінку 2017 року.