Конволюційні мережі (CNN) покладаються на математичну згортку (наприклад, 2D або 3D згортки), яка зазвичай використовується для обробки сигналів. Зображення - це тип сигналу, і згортання можна однаково використовувати для звуку, вібрацій тощо. Отже, в принципі CNN можуть знаходити додатки до будь-якого сигналу та, ймовірно, більше.
На практиці вже існує робота над NLP (як згадував Метью Грейвс), де деякі люди обробляють текст із CNN, а не з рекурсивними мережами. Деякі інші роботи стосуються обробки звуку (тут немає посилань, але я ще не опублікував роботу, яка триває).
Оригінальний зміст: Відповідаючи на оригінальне запитання, яке змінилося зараз. Можливо, потрібно видалити цю .
Дослідження змагальних мереж (і пов'язаних з ними) показують, що навіть глибокі мережі легко можна обдурити , що змушує їх побачити собаку (або будь-який об’єкт) у тому, що здається випадковим шумом, коли людина дивиться на неї (стаття має чіткі приклади).
Інше питання - генералізаційна потужність нейронної мережі. Конволюційні мережі вразили світ своєю здатністю узагальнити спосіб краще, ніж інші методи. Але якщо в мережі подаються лише зображення котів, вона розпізнає лише котів (і, ймовірно, бачить котів всюди, як за результатами змагальних мереж). Іншими словами, навіть CNS важко узагальнюють занадто далеко, ніж те, чого вони навчились.
Межу розпізнавання важко точно визначити. Я б просто сказав, що різноманітність даних про навчання підштовхує межу (я припускаю, що подальша деталізація повинна призвести до більш відповідного місця для обговорення).