Яка різниця між епізодом та епохою у глибокому навчанні Q?


14

Я намагаюся зрозуміти відомий документ "Гра в Атарі з вивченням глибокого підкріплення" ( pdf ). Мені незрозуміло щодо різниці між епохою та епізодом . В алгоритмі зовнішній цикл знаходиться над епізодами , тоді як на малюнку2 вісь x позначенаепохою. У контексті підкріплення навчання мені не зрозуміло, що означає епоха. Чи є епоха зовнішньою петлею навколо циклу епізоду? 12

введіть тут опис зображення

введіть тут опис зображення


1
Отже ... скільки епізодів складають епоху?
Lewen

Відповіді:


10
  • один епізод = один послідовність станів, дій та нагород, що закінчується термінальним станом. Наприклад, грати всю гру можна розглядати як один епізод, термінальний стан досягається, коли один гравець програє / виграє / нічиє. Іноді можна віддати перевагу визначити один епізод декількома іграми ( приклад : "кожен епізод - це кілька десятків ігор, тому що ігри дорівнюють 21 балу для кожного гравця").
  • одна епоха = один перехід вперед та один зворотний пропуск усіх прикладів тренувань у термінології нейронної мережі.

У статті, яку ви згадуєте, вони здаються більш гнучкими щодо значення епохи, оскільки вони просто визначають одну епоху як певну кількість оновлень ваги. Отже, ви можете розглядати одну епоху як зовнішню петлю навколо циклу епізоду, як ви згадували в запитанні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.