Який шар забирає більше часу на тренування CNN? Складні шари проти шарів ФК


11

У конволюційній нейромережі, який шар витрачає максимум часу на тренування? Зворотні шари або повністю пов'язані шари? Ми можемо взяти архітектуру AlexNet, щоб зрозуміти це. Я хочу побачити час розриву тренувального процесу. Я хочу порівняльне порівняння часу, щоб ми могли приймати будь-яку константну GPU.

Відповіді:


11

ПРИМІТКА. Я зробив ці розрахунки спекулятивно, тому деякі помилки могли виникнути. Будь ласка, повідомте про будь-які подібні помилки, щоб я міг їх виправити.

Загалом, у будь-якій CNN максимальний час навчання проходить у "Поширенні помилок назад" на повністю з'єднаному шарі (залежить від розміру зображення). Також максимальна пам'ять також зайнята ними. Ось слайд зі Стенфорда про параметри VGG Net:

введіть тут опис зображення

введіть тут опис зображення

Зрозуміло, що ви можете бачити, що повністю пов'язані шари вносять близько 90% параметрів. Тож максимальна пам’ять зайнята ними.

(333)(333)224224224224(333)6422422464224224(333)87106

56562565656(33256)56562565656(33256)1850 рік106

стriге=1

cгоданнелсоутpут(piхелОутpутгодеiггодтpiхелОутpутшiгтгод)(fiлтеrгодеiггодтfiлтеrшiгтгодcгоданнелсiнpут)

Завдяки швидким графічним процесорам ми легко впораємося з цими величезними розрахунками. Але в шарах FC вся матриця повинна бути завантажена, що спричиняє проблеми з пам’яттю, як правило, це не стосується згорткових шарів, тому навчання конволюційних шарів все ще просто. Крім того, всі вони повинні завантажуватися в саму пам'ять GPU, а не в оперативну пам'ять процесора.

Також ось діаграма параметрів AlexNet:

введіть тут опис зображення

Ось порівняння продуктивності різних архітектур CNN:

введіть тут опис зображення

Я пропоную вам ознайомитись з CS231n лекцією 9 Стенфордського університету для кращого розуміння куточків архітектур CNN.


4

Оскільки CNN містить операцію згортання, але DNN використовує Конструктивну дивергенцію для навчання. CNN є більш складним щодо позначення Big O.

Довідково:

1) Часові складності CNN
https://arxiv.org/pdf/1412.1710.pdf

2) Повністю з'єднані шари / Deep Neural Network (DNN) / Багатошаровий Perceptron (MLP) https://www.researchgate.net/post/What_is_the_time_complexity_of_Multilayer_Perceptron_MLP_and_other_neural_networks

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.