Основні переваги:
(1) Не потрібно передавати інженерні функції для нелінійних проблем навчання (заощаджуйте час та масштабуйте майбутнє, оскільки ручна інженерія дехто сприймає як короткотермінову допомогу)
(2) Вивчені функції іноді кращі, ніж найкращі ручні функції, і можуть бути настільки складними (комп’ютерне бачення - наприклад, обличчясті функції), що інженеру знадобиться занадто багато людського часу.
(3) Може використовувати незазначені дані для попередньої підготовки мережі. Припустимо, у нас є 1000000 зображень без маркування та 1000 зображень із міткою. Зараз ми можемо кардинально вдосконалити алгоритм керованого навчання, попередньо підготувавшись до 1000000 зображень без маркування з глибоким навчанням. Крім того, в деяких областях у нас є стільки без маркування даних, але мічені дані важко знайти. Цінним є алгоритм, який може використовувати ці немечені дані для покращення класифікації.
(4) Емпірично розгромило багато орієнтирів, які бачили лише додаткові покращення до впровадження методів глибокого навчання.
(5) Один і той же алгоритм працює в декількох областях із сирими (можливо, з незначними попередніми обробками) входами.
(6) Тримає вдосконалення, оскільки в мережу подається більше даних (якщо припускати стаціонарні розподіли тощо).