Випадки сучасного використання машин з обмеженим застосуванням Больцмана (МБР)?


16

Передумови: Багато сучасних досліджень за останні чотири роки (пост alexnet ), схоже, віддалилися від використання генеративного пошуку для нейронних мереж для досягнення найсучасніших результатів класифікації.

Наприклад, серед найпопулярніших результатів для списку сюди входять лише 2 статті з 50 найкращих, як видається, використовуються генеративні моделі, обидві з яких - ОРМ. В інших 48 виграшних статтях йдеться про різні дискримінаційні архітектури подачі, приділяючи багато зусиль для пошуку кращих / нових ініціалізацій ваги та функцій активації, відмінних від сигмоїдів, що використовуються в МП та багатьох старих нейронних мереж.

Запитання: Чи є вже якийсь сучасний привід використовувати обмежені машини Boltzmann?

Якщо ні, чи існує де-факто модифікація, яку можна застосувати до цих архітектурних напрямків подачі, щоб зробити будь-який з їх шарів генеративним?

Мотивація: Я запитую, оскільки деякі з моделей, які я бачу доступними, як правило, варіанти УЗМ, не обов'язково мають очевидні аналогічні дискримінаційні аналоги цим генеративним шарам / моделям, і навпаки. Наприклад:

  • mcRBM

  • ssRBM

  • CRBM (хоча можна стверджувати, що використовувана CNN архітектура подачі - це дискримінаційна аналогічна архітектура)

Крім того, це було очевидно і до alexnet, з 2010, 2011 та 2009 року з повагою.


3
Для задоволення від цього я побудував генеральну подачу вперед NN за допомогою автоматичної регресії. power2predict.edublogs.org/2016/06/26/…
Кріс

Відповіді:


6

Це якесь старе питання, але оскільки він по суті задає "кращі практики", а не те, що фактично можливо технічно (тобто не потрібно занадто багато фокусу на дослідженні), поточні найкращі практики - це щось на кшталт:

  • Наразі МПУ зазвичай не використовуються
  • лінійні моделі (лінійна регресія, логістична регресія) використовуються там, де це можливо
  • в іншому випадку мережі глибокої подачі вперед із шарами, такими як повністю з’єднані шари, згорткові шари та вкидання в якісь шари регуляризації, такі як випадання, та останнім часом пакетна нормалізація
  • звичайно з активаційними шарами між ними, як правило, ReLU, але також використовуються танг і сигмоїд
  • і, мабуть, деякі максимальні басейни (не завжди: середній пул та інші використовуються також)

Для генеративних звичаїв загальні методи включають:


1

Я нещодавно знайшов цю статтю про "Болцманн кодовані змагальні машини", яка інтегрує МПУ з CNN в якості генеративної моделі.

Автори показують, що математично "краще" в чомусь, і показують кілька іграшкових прикладів, де BEAM здається набагато більш здатним точно вивчити розподіл даних порівняно з іншими моделями GAN.

Ефект "реального світу" обличчя CelebA був набагато менш вражаючим - незрозуміло, що BEAM робить кращі або навіть більші, ніж інші популярні GAN. Однак використання УЗМ у цій обстановці, безумовно, цікаво.


чи вважаєте ви, що цей збій приписується пошуковому простору BEAM, що забезпечує більший набір ступенів свободи, притаманних визначенню моделі?
Вас
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.