Скажімо, у мене є деяка архітектура моделі глибокого вивчення, а також вибраний розмір міні-партії. Як я випливаю з цих очікуваних вимог пам'яті для навчання цій моделі?
Як приклад, розглянемо (не повторювана) модель із введенням розмірності 1000, 4 повністю пов'язаних прихованих шарів розміром 100 та додатковим вихідним шаром розмірності 10. Розмір міні-партії становить 256 прикладів. Як можна визначити приблизну пам'ять (ОЗП) слід навчального процесу на процесорі та на графічному процесорі? Якщо це має якусь різницю, припустимо, що модель тренується на графічному процесорі з TensorFlow (таким чином, використовуючи cuDNN).