Нещодавно я зацікавився LSTM, і я з подивом дізнався, що ваги діляться з часом.
Я знаю, що якщо ви поділяєте ваги протягом часу, то ваші послідовності введення часу можуть бути різної довжини.
З загальною вагою у вас є набагато менше параметрів для тренування.
З мого розуміння, причина, з якої можна звернутися до LSTM порівняно з іншим методом навчання, полягає в тому, що ви вважаєте, що у ваших даних є якась часова / послідовна структура / залежність, яку ви хочете вивчити. Якщо ви жертвуєте «розкішшю» змінної довжини і приймаєте довгий час обчислення, чи не буде RNN / LSTM без загальних ваг (тобто для кожного кроку у вас різні ваги) краще чи краще, чи щось мені не вистачає?