4
Як LSTM запобігає проблемі градієнта, що зникає?
LSTM був винайдений спеціально для уникнення проблеми, що втрачає градієнт. Це слід зробити з каруселем постійної помилки (CEC), який на наведеній нижче схемі (від Greff et al. ) Відповідає циклу навколо комірки . (джерело: deeplearning4j.org ) І я розумію, що цю частину можна розглядати як якусь функцію тотожності, тому похідна …