Навчання нейронних мереж (NN) з генетичними алгоритмами (GA) не лише здійсненно, є деякі сфери, в яких продуктивність достатньо хороша, щоб часто використовуватися. Хорошим прикладом цього є Нейроеволюція розширення топологій або NEAT , який є вдалим підходом до генерації контролерів у простих середовищах, таких як ігри.
Однак у більш загальному випадку підхід не відповідає масштабам великих, глибоких мереж з великою кількістю параметрів.
Генетичні алгоритми та інші глобальні пошуки оптимальних параметрів є надійними, оскільки алгоритми на основі градієнта не є. Наприклад, ви можете тренувати мережу NN з активацією крокової функції або будь-якими іншими недиференційованими функціями активації. Вони мають слабкі місця в інших місцях. Одне з важливих випадків у випадку GA, що використовується для NN, - це те, що вагові параметри є взаємозамінними в деяких комбінаціях, але сильно залежать від інших комбінацій. Об'єднання двох однаково хороших нейронних мереж з різними параметрами - що ви зробили б при перехресті в GA - зазвичай призводить до третьої мережі з низькою продуктивністю. Успіх NEAT полягає частково в пошуку способу вирішення цього питання шляхом "розростання" зв'язків мережі та їх співставлення між подібними нейронними мережами.
Підходи на основі градієнтів набагато ефективніші. Взагалі, і не тільки в області доменних мереж, якщо ви можете обчислити градієнт функції щодо параметрів, то ви можете знайти оптимальні параметри швидше, ніж більшість інших методів оптимізації. Точний градієнт гарантує принаймні невелике поліпшення в результаті однієї оцінки, і більшість інших оптимізаторів потрапляють у парадигму генерування та повторення, яка не може дати такого роду гарантії. Слабкість тенденції до пошуку локальної оптими виявилася не основною перешкодою для функцій втрат в NN, і вона була вирішена з певним успіхом, використовуючи розширення до базового градієнтного спуску, такого як імпульс, RPROP, Adam тощо.
На практиці у великій багатошаровій мережі градієнтні методи, ймовірно, на порядок швидші, ніж пошук GA, такий як NEAT для пошуку мережевих параметрів. Ви не знайдете жодних CNN-тренінгів, які вирішують ImageNet, або навіть MNIST, де GA знайшов ваги мережі без допомоги. Однак ГС або хоча б деякі їх варіанти не виключаються на 100%. Наприклад, цей блог 2017 року переглядає останні документи, включаючи великомасштабну еволюцію класифікаторів зображень, яка досліджує використання ГА для виявлення гіперпараметрів NN, що є важливим завданням у машинному навчанні, і не дуже простежується за допомогою градієнтних методів.