Він використовується з кількох причин, в основному він використовується для об'єднання декількох мереж разом. Хорошим прикладом може бути те, де у вас є два типи введення, наприклад, теги та зображення. Ви можете побудувати мережу, яка, наприклад, має:
ЗОБРАЖЕННЯ -> Конв -> Макс. Пул -> Конв -> Макс. Пул -> Щільність
TAG -> Вбудовування -> Щільний шар
Щоб об'єднати ці мережі в одне передбачення і навчити їх разом, ви можете об'єднати ці щільні шари до остаточної класифікації.
Мережі, де у вас є кілька входів, є найбільш "очевидним" їх використанням, ось малюнок, який поєднує слова із зображеннями всередині RNN, мультимодальна частина - це об'єднання двох входів:

Інший приклад - Inception шар Google, де у вас різні складання, які додаються разом, перш ніж перейти до наступного шару.
Для подачі декількох входів до Keras ви можете передати список масивів. У прикладі слово / зображення ви мали б два списки:
x_input_image = [image1, image2, image3]
x_input_word = ['Feline', 'Dog', 'TV']
y_output = [1, 0, 0]
Потім ви можете помістити наступне:
model.fit(x=[x_input_image, x_input_word], y=y_output]