Чи були введені генеральні змагальні мережі Юргена Шмідхубера?


32

Я читаю на https://en.wikipedia.org/wiki/Generative_adversarial_networks :

[Генеральні змагальні мережі] були представлені Ian Goodfellow та ін у 2014 році.

але Юрген Шмідхубер стверджує, що раніше проводив подібну роботу в цьому напрямку (наприклад, під час навчального посібника з генеральних змагальних мереж було проведено дебати на NIPS 2016: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Конференція / Нейро-Інформаційно-обробні системи-Конференція-NIPS-2016 / Генеративні-змагальні мережі див. 1h03min).

Чи була ідея, що стоїть за генеративними змагальними мережами, вперше публічно представлена ​​Юргеном Шмідхубер? Якщо ні, то наскільки схожі ідеї Юргена Шмідхубера?


5
Відповідне обговорення Reddit тут , особливо цей коментар .
Дугал

Короткий підсумок інциденту NIPS можна прочитати тут: beamandrew.github.io/deeplearning/2016/12/12/nips-2016.html
каже

1
Розділ історії сторінки Вікіпедії оновлено, і я думаю, що він містить усі відповідні посилання та їх зв’язки між собою зараз. Я думаю, що це насправді цілком справедливо і повно.
Альберт

@Albert дякую за оновлення!
Франк Дернонкур

Відповіді:


50

Я опублікував основну ідею детермінованої різноманітності генеративних змагальних мереж (GAN) у публікації в блозі 2010 року (archive.org) . Я шукав, але не міг знайти нічого подібного ніде і не мав часу спробувати його реалізувати. Я не був і досі не є дослідником нейронної мережі і не маю зв’язків у цій галузі. Я скопію сюди щоденник блогу:

2010-02-24

Метод навчання штучних нейронних мереж для створення відсутніх даних в контексті змінного. Оскільки ідею важко вкласти в одне речення, я буду використовувати приклад:

У зображенні можуть бути відсутні пікселі (скажімо, під розмазанням). Як можна відновити відсутні пікселі, знаючи лише навколишні пікселі? Одним із підходів буде нейронна мережа "генератора", яка, враховуючи вхідні пікселі, генерує відсутні пікселі.

Але як тренувати таку мережу? Не можна очікувати, що мережа точно створить відсутні пікселі. Уявіть, наприклад, що відсутні дані - це лата трава. Можна було б навчити мережу з купою зображень газонів, з прибраними ділянками. Учитель знає, яких даних немає, і міг би оцінити мережу відповідно до середньоквадратичної різниці (RMSD) між згенерованим нальотом трави та вихідними даними. Проблема полягає в тому, що якщо генератор зіткнеться із зображенням, яке не є частиною навчального набору, то нейронна мережа не зможе розмістити все листя, особливо посередині патча, в точно потрібних місцях. Найнижча помилка RMSD, ймовірно, була б досягнута мережею, що заповнює середню область патча суцільним кольором, який є середнім кольором пікселів на типових зображеннях трави. Якби мережа намагалася генерувати траву, яка виглядає переконливо для людини і як така виконує своє призначення, було б невдале покарання за метрикою RMSD.

Моя ідея така: (див. Малюнок нижче): Тренуйте одночасно з генератором мережу класифікаторів, яка задається у випадковій або чергується послідовності, згенерованими та вихідними даними. Класифікатор повинен в цьому контексті навколишнього зображення здогадуватися, чи вхід є оригінальним (1) або згенерованим (0). Мережа генераторів одночасно намагається отримати високий бал (1) від класифікатора. Сподіваємось, результат полягає в тому, що обидві мережі стартують дійсно просто, і просуваються до генерування та розпізнавання все більш і більш вдосконалених функцій, наближаючись і, можливо, перемагаючи здатність людини розрізняти створені дані та оригінал. Якщо для кожного балу враховується кілька зразків тренувань, то RMSD є правильним показником помилки,

введіть тут опис зображення
Навчання з штучної нейронної мережі

Коли я згадую RMSD в кінці, я маю на увазі метрику помилки для "оцінки ймовірності", а не значення пікселів.

Спочатку я почав розглянути питання про використання нейронних мереж у 2000 році (публікація comp.dsp) для створення пропущених високих частот для вибіреного цифрового звуку (перекомпонованого на більш високу частоту дискретизації) таким чином, який би був переконливим, а не точним. У 2001 році я зібрав аудіобібліотеку для тренінгу. Ось частини журналу EFNet #musicdsp Internet Relay Chat (IRC) від 20 січня 2006 року, в якій я (єхар) розмовляю про цю ідею з іншим користувачем (_Beta):

[22:18] <yehar> Проблема із зразками полягає в тому, що якщо у вас вже немає чогось "там", то що ви можете зробити, якщо ви зробите вибірку ...
[22:22] <yehar> Я одного разу зібрав великий бібліотека звуків, щоб я міг розробити "розумний" альго для вирішення цієї точної проблеми.
[22:22] <yehar> Я використовував би нейронні мережі
[22:22] <yehar>, але я не закінчив роботу: - D
[22:23] <_Beta> Проблема з нейронними мережами полягає в тому, що ви повинні мати певний спосіб виміряти
добротність результатів [22:24] <yehar> beta: у мене є думка про те, що ви можете розробити "слухача" на в той же час, коли ви розвиваєте "розумного творця звуку там"
[22:26] бета-версія: і цей слухач навчиться визначати, коли слухає створений або природний спектр. і творець одночасно розвивається, щоб спробувати обійти це виявлення

Інколи між 2006 та 2010 роками друг запросив експерта ознайомитися з моєю ідеєю та обговорити її зі мною. Вони вважали, що це цікаво, але сказали, що тренувати дві мережі, коли одна мережа може виконати роботу, не вигідно. Я ніколи не був впевнений, чи не вони отримають основної ідеї або якщо вони негайно побачили спосіб сформулювати це як єдину мережу, можливо, з вузьким місцем десь у топології, щоб розділити її на дві частини. Це було в той час, коли я навіть не знав, що зворотне розповсюдження - це все ще метод де-факто навчання (дізнався, що робити відео в захопленні Deep Dream 2015). Протягом багатьох років я говорив про свою ідею з парою науковців даних та іншими, які, на мою думку, могли зацікавити, але реакція була м'якою.

У травні 2017 року на YouTube [Дзеркало] я побачила презентацію підручника Яна Гудфеллоу , яка повністю зробила мій день. Мені це здалося такою ж основною ідеєю, з відмінностями, як я зараз розумію, викладеними нижче, і була наполеглива робота, щоб вона дала хороші результати. Також він дав теорію, або все базував на теорії, чому це має працювати, в той час як я ніколи не робив жодного формального аналізу своєї ідеї. Презентація Goodfellow відповіла на питання, які у мене були, і багато іншого.

GAN Goodfellow та запропоновані розширення включають джерело шуму в генераторі. Я ніколи не думав включати джерело шуму, але замість цього контекст навчальних даних краще узгоджував цю ідею з умовною GAN (cGAN) без введення векторного шуму та з моделлю, обумовленою частиною даних. Моє теперішнє розуміння на основі Матьє та ін. 2016 рік - джерело шуму не потрібне для корисних результатів, якщо є достатня варіативність входу. Інша відмінність полягає в тому, що GAN Goodfellow мінімізує ймовірність журналу. Пізніше було введено найменше квадратів GAN (LSGAN) ( Mao et al. 2017), що відповідає моїй пропозиції RMSD. Отже, моя ідея відповідала б ідеї умовно-найменшої генеративної генеральної змагальної мережі (cLSGAN) без шумового введення в генератор та з частиною даних як умовою введення. А генеративні зразки генераторів з апроксимації розподілу даних. Зараз я знаю, якщо і сумніваюся, що шумний внесок у реальному світі дозволив би це зробити з моєю ідеєю, але це не означає, що результати не були б корисними, якби не.

Різниці, згадані у вище, є основною причиною, чому я вважаю, що Гудфллоу не знав і не чув про мою ідею. Інша справа, що в моєму блозі не було іншого вмісту машинного навчання, тому він би користувався дуже обмеженою експозицією в колах машинного навчання.

Це конфлікт інтересів, коли рецензент чинить тиск на автора, щоб цитувати власну роботу рецензента.


8
Треба сказати, я дуже вражений. Здається, що ваша публікація в блозі заслуговує також і на ідею, хоча Іан та команда, можливо, відкрили її самостійно.
user2808118

2
Якби ви опублікували свою роботу, ви могли б стати людиною, яка надихнула на змагальну революцію. GASP !!
користувач2808118

5
@ user2808118 Це вимагало б роботи над цим, щоб отримати певні результати для публікації, а не просто думати про це.
Оллі Ніемітало

4
Я вітаю вас двічі: по-перше, за те, що виявив це як мінімум за 3 роки до Goodfellow, а по-друге, за те, що має велике серце, щоб сприйняти це дуже позитивно.
Не вдалося вченому

19

Відповідь Ian Goodfellow про те, чи прав був Юрген Шмідхубер, коли він вимагав кредиту для GAN на NIPS 2016? розміщено на 2017-03-21:

Він точно не претендує на кредит для GAN. Це складніше.

Ви можете побачити, що він написав власними словами, коли він був рецензенткою подання NIPS 2014 щодо GAN: Експорт оглядів, дискусій, відгуки авторів та мета-огляди ( дзеркало )

Він рецензент, який попросив нас змінити назву GANs на "зворотний PM".

Ось документ, який він вважає недостатньо визнаним: http: // ftp: //ftp.idsia.ch/pub/juergen/factorial.pdf ( дзеркало )

Мені не подобається, що немає такого способу вирішувати такі питання. Я зв’язався з організаторами NIPS і запитав, чи є спосіб, щоб Юрген подав скаргу на мене і мав комітет представників НІПС оцінити, чи моє видання ставиться до нього несправедливо. Вони сказали, що такого процесу немає.

Я особисто не думаю, що існує якийсь істотний зв’язок між мінімізацією передбачуваності та GAN. У мене ніколи не виникало проблем із визнанням зв’язків між GAN та іншими алгоритмами, які насправді пов’язані між собою, як-от шум-контрастна оцінка та самопідконтрольний прискорення.

Юрген і я маємо намір разом написати документ, в якому описуємо схожість та відмінності між прем'єр-міністром та GAN, припускаючи, що ми можемо домовитися про те, що це таке.


2
На жаль, між двома майбутніми не існує документа. :-(
ComputerScientist

@ComputerScientist так і досі чекає, хтось інший може подбати про це інакше :-)
Франк Дернонкурт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.