Запитання з тегом «adam»

6
Оптимізатор Адама з експоненціальним розпадом
У більшості кодів Tensorflow, який я бачив, використовується оптимізатор Адама з постійною швидкістю навчання 1e-4(тобто 0,0001). Код зазвичай виглядає наступним чином: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

1
Як працює метод Адама стохастичного градієнтного спуску?
Мені знайомі основні алгоритми спуску градієнта для навчання нейронних мереж. Я прочитав документ, що пропонує Адаму: АДАМ: МЕТОД СТОХАСТИЧНОЇ ОПТИМІЗАЦІЇ . Хоча я, безумовно, отримав деяку інформацію (принаймні), папір здається мені занадто високим рівнем. Наприклад, функція витрат часто є сумою безлічі різних функцій, тому для оптимізації її значення необхідно зробити …

3
Що є причиною того, що оптимізатор Адама вважається стійким до значення його гіпер параметрів?
Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Бенджіо, Гудфлоу та Курвіля: Зазвичай Адам вважається досить надійним у виборі гіпер параметрів, хоча інтенсивність навчання іноді потрібно змінити із запропонованого за замовчуванням. якщо це правда, то велика справа, тому …

2
Пояснення Спайків у програмі втрати тренувань проти ітерацій Адама Оптимізатора
Я треную нейронну мережу за допомогою i) SGD та ii) Адапта оптимізатора. Під час використання звичайного SGD я отримую плавну криву втрати тренувань проти ітерації, як показано нижче (червона). Однак, коли я використовував оптимізатор Адама, крива втрати тренувань має деякі сплески. Яке пояснення цих шипів? Деталі моделі: 14 вхідних вузлів …

1
Чому важливо включити термін корекції зміщення для оптимізатора Адама для глибокого навчання?
Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Беґніо, Гудфллоу та Кортвіла: Адам включає коригування зміщення оцінок як моментів першого порядку (термін імпульсу), так і (безцентрованих) моментів другого порядку для обліку їх ініціалізації при початку. видається, що основною …

1
RMSProp та Adam проти SGD
Я виконую експерименти над набором валідації EMNIST, використовуючи мережі з RMSProp, Adam та SGD. Я досягаю 87% точності за допомогою SGD (ступінь навчання 0,1) та випадання (0,1 випадання задачі), а також регуляризація L2 (1e-05 штраф). Перевіряючи таку саму точну конфігурацію з RMSProp та Адамом, а також початковий рівень навчання 0,001, …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.