LSTM був винайдений спеціально для уникнення проблеми, що втрачає градієнт. Це слід зробити з каруселем постійної помилки (CEC), який на наведеній нижче схемі (від Greff et al. ) Відповідає циклу навколо комірки .
(джерело: deeplearning4j.org )
І я розумію, що цю частину можна розглядати як якусь функцію тотожності, тому похідна є однією, а градієнт залишається постійним.
Що я не розумію, це те, як це не зникає через інші функції активації? Ворота входу, виходу та забуття використовують сигмовиду, похідна якої становить не більше 0,25, а g і h традиційно становлять танг . Як зворотне поширення через ці градієнти не зникає?