Характеристика зображень, що робить їх підданими класифікації з глибокою нейронною мережею, полягає в тому, що є безліч особливостей (можливо, мільйони, якщо не мільярди пікселів з RGB, інтенсивністю тощо), і якщо у вас є точні мітки, це не галасливі дані. Камери в наші дні дуже хороші, і вони нічого не міняють. Завдяки Інтернету, у нас зараз багато чітко маркованих зображень. Глибока мережа може виражати довільно складні функції, що є проблемою з галасливими даними, оскільки ви можете дуже легко переповнювати шум, тому багато методів навчання схильні штрафувати складні моделі. Що стосується розпізнавання зображень, правда, справжня функція здається насправді дуже складною, ми не маємо уявлення про те, як виглядає функціональна форма, і ми навіть не знаємо, які відповідні особливості у багатьох випадках.
Це не означає, що ви не можете використовувати глибокі мережі для вивчення функцій, що не мають нічого спільного із зображеннями. Вам потрібно бути дуже обережним щодо недоліків, здебільшого, що це дуже схильне до переозброєння, але також, що це обчислювально дорого і може зайняти тривалий час для тренувань (не так вже й багато проблем із паралельними SGD та GPU). Іншим недоліком є те, що ви маєте дуже мало-зовсім не інтерпретаційність моделі, що насправді не має значення для класифікації зображень. Ми просто намагаємось змусити комп’ютери визнати різницю між шимпанзе та орангутаном. Людське розуміння формули не має значення. Для інших областей, особливо медичної діагностики, політичних досліджень тощо, ви хочете або навіть потребуєте людського розуміння.