В останні роки конволюційні нейронні мережі (CNN) стали найсучаснішим для розпізнавання об'єктів в комп'ютерному зорі. Зазвичай CNN складається з декількох згорткових шарів, за якими слідують два повністю з'єднані шари. Інтуїція, що стоїть за цим, полягає в тому, що згорткові шари навчаються кращому представленню вхідних даних, а повністю пов'язані шари потім вчаться класифікувати це представлення на основі набору міток.
Однак, перш ніж CNN почали домінувати, підтримка векторних машин (SVM) була найсучаснішим. Тому здається розумним сказати, що SVM все ще є більш сильним класифікатором, ніж двошарова повністю пов'язана нейронна мережа. Тому мені цікаво, чому сучасні CNN мають тенденцію використовувати повністю пов'язані шари для класифікації, а не SVM? Таким чином, ви мали б найкраще з обох світів: сильне представлення функцій та сильний класифікатор, а не сильне представлення функцій, але лише слабкий класифікатор ...
Якісь ідеї?