Я намагаюся створити систему розпізнавання жестів для класифікації жестів ASL (американської мови жестів ) , тому мій вхід повинен бути послідовністю кадрів або з камери, або з відеофайлу, тоді він визначає послідовність і відображає її у відповідній клас (спати, допомагати, їсти, бігати тощо)
Справа в тому, що я вже створив подібну систему, але для статичних зображень (не включається рух), це було корисно для перекладу алфавітів, лише коли побудова CNN була прямим завданням вперед, оскільки рука не рухається так сильно і Структура набору даних була також керованою, коли я використовував кераси, і, можливо, все ще маю намір це зробити (кожна папка містила набір зображень для певного знаку, а ім'я папки - це назва класу цього знака, наприклад: A, B, C , ..)
Моє запитання тут, як я можу організувати свій набір даних, щоб можна було вводити його в RNN в керах і які певні функції я повинен використовувати для ефективного тренування своєї моделі та будь-яких необхідних параметрів, деякі люди пропонували використовувати клас TimeDistributed, але я не мати чітке уявлення про те, як використовувати його на мою користь, і врахувати вхідну форму кожного шару в мережі.
також враховуючи, що мій набір даних буде складатися з зображень, я, мабуть, знадобиться згорткового шару, як було б можливо комбінувати шар conv у LSTM (я маю на увазі з точки зору коду).
Наприклад, я уявляю, що мій набір даних виглядає приблизно так
Папка під назвою "Виконати" містить 3 папки 1, 2 і 3, кожна папка відповідає її кадру в послідовності
Отже Run_1 буде містити деякий набір зображень для першого кадру, Run_2 для другого кадру та Run_3 для третього, мета моєї моделі - навчитись із цією послідовністю виводити слово Run .