Відповіді:
Ви хочете виконати відсікання градієнта, коли у вас виникає проблема зникнення градієнтів або вибуху градієнтів. Однак для обох сценаріїв є кращі рішення:
Вибух градієнта трапляється, коли градієнт стає занадто великим і ви отримуєте числовий перелив. Це можна легко виправити, ініціалізуючи ваги мережі до менших значень. Якщо це не працює, можливо, в коді є помилка.
Зникаючий градієнт трапляється, коли оптимізація застрягає в точці сідла, градієнт стає занадто малим, щоб оптимізація прогресувала. Це можна виправити, використовуючи спуск градієнта з імпульсом або опорою RMS або обидва (також відомий як оптимізатор Адама).
Початкові значення для верхньої межі відсікання градієнта були б чимось меншими, ніж найбільше число, яке може приймати змінна. Що стосується нижньої межі, я б сказав, що це конкретна проблема, але, можливо, почніть з чогось типу 1e-10.