Зсув працює на віртуальний нейрон, тому немає значення мати кілька входів зміщення, коли є один вихід - це було б еквівалентно простому додаванню різних ваг зміщення в один зміщення.
У картах функцій, які є результатом першого прихованого шару, кольори більше не зберігаються окремо *. Ефективно кожна карта функції - це "канал" у наступному шарі, хоча вони зазвичай візуалізуються окремо, де вхід візуалізується разом із каналами, що поєднуються. Інший спосіб думати з цього приводу полягає в тому, що окремі канали RGB на вихідному зображенні мають на вході 3 "карти функцій".
Не має значення, скільки каналів чи функцій є в попередньому шарі, вихід на кожну функційну карту на наступному шарі є єдиним значенням на цій карті. Одне вихідне значення відповідає одному віртуальному нейрону, який потребує однієї ваги зміщення.
Як ви пояснюєте в запитанні, в CNN, однакові ваги (включаючи зміщення ваги) поділяються в кожній точці на карті вихідних функцій. Таким чином, кожна карта особливостей має власну вагу зміщення, а також previous_layer_num_features x kernel_width x kernel_height
ваги з'єднання.
Так, так, ваш приклад, що призводить до (3 x (5x5) + 1) x 32
загальної ваги для першого шару, є правильним для CNN з першим прихованим шаром, який обробляє вхід RGB на 32 окремі карти функцій.
* Ви можете заплутатися, побачивши візуалізацію ваг CNN, які можна розділити на кольорові канали, якими вони працюють.