Якщо ви подивитеся на документацію http://keras.io/optimizers/, в SGD є параметр для розпаду. Я знаю, що з часом знижується швидкість навчання. Однак я не можу зрозуміти, як саме це працює. Чи є це значення, помножене на ступінь навчання, наскільки lr = lr * (1 - decay)
це експоненціальне? Також як я можу побачити, яку швидкість навчання використовує моя модель? Коли я друкую model.optimizer.lr.get_value()
після запуску на кілька епох, це повертає початкову швидкість навчання, навіть якщо я встановив занепад.
Також мені потрібно встановити nesterov = True, щоб використовувати імпульс, або є лише два різних типи імпульсу, якими я можу користуватися. Наприклад, є сенс робити цеsgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
стосується кількості окремих кроків SGD, а не кількості епох, жорсткості?