Я хотів би додати до сказаного вже, що ваше питання стосується важливого поняття в машинному навчанні, яке називається трансферним навчанням . На практиці дуже мало людей тренують цілу згорткову мережу з нуля (з випадковою ініціалізацією), оскільки це забирає багато часу і досить рідко мати набір даних достатнього розміру.
Сучасним ConvNets потрібно тривати 2-3 тижні, щоб пройти навчання декількох графічних процесорах на ImageNet. Тому звичайно бачити, як люди випускають свої остаточні контрольно-пропускні пункти ConvNet на користь інших, які можуть використовувати мережі для тонкої настройки. Наприклад, у бібліотеці Caffe є модельний зоопарк, де люди діляться своїми мережевими вагами.
Коли вам потрібен ConvNet для розпізнавання зображень, незалежно від того, який домен вашої програми, вам слід розглянути можливість використання існуючої мережі, наприклад, VGGNet - це звичайний вибір.
Слід пам’ятати про декілька речей, які здійснюють трансферне навчання :
Обмеження попередньо перевірених моделей. Зауважте, що якщо ви хочете використовувати мережу, що перевіряється, ви можете бути дещо обмежені з точки зору архітектури, яку ви можете використовувати для нового набору даних. Наприклад, ви не можете довільно витягувати шари Conv з попередньо перевіреної мережі. Однак деякі зміни прямолінійні: завдяки спільному доступу до параметрів можна легко запустити попередньо перевірену мережу на зображеннях різної просторової величини. Це чітко видно у випадку шарів Conv / Pool, оскільки їх функція перемоги не залежить від просторового розміру вхідного об'єму (до тих пір, поки «підходять»).
Норми навчання. Зазвичай застосовується менша швидкість навчання для ваг ConvNet, які точно налаштовуються, порівняно з (випадково ініціалізованими) вагами для нового лінійного класифікатора, який обчислює бали класів у вашому новому наборі даних. Це тому, що ми очікуємо, що ваги ConvNet відносно хороші, тому ми не хочемо спотворювати їх занадто швидко і занадто сильно (особливо в той час, коли новий Лінійний класифікатор над ними навчається від випадкової ініціалізації).
Додаткова довідка, якщо вас цікавить ця тема: Наскільки передані функції в глибоких нейронних мережах?