Машинне навчання часто стосується оптимізації функції, яка має багато локальних мінімумів. Підтримка нейронних мереж із прихованими одиницями - хороший приклад. Будь ці функції дискретні чи безперервні, не існує методу, який би досяг глобального мінімуму і зупинявся. Неважко довести, що не існує загального алгоритму, щоб знайти глобальний мінімум безперервної функції, навіть якщо вона є одновимірною і гладкою (має нескінченно багато похідних). На практиці всі алгоритми вивчення нейронних мереж дотримувалися локального мінімуму. Це легко перевірити: створити випадкову нейронну мережу, зробити великий набір її відповідей на випадкові входи, а потім спробувати вивчити іншу нейронну мережу з тією ж архітектурою, щоб скопіювати відповіді. Хоча ідеальне рішення існує, ні зворотне розповсюдження, ні будь-який інший алгоритм навчання не зможуть його виявити,
Деякі методи навчання, як-от імітація відпалу або генетичні алгоритми, вивчають багато місцевих мінімумів. Для безперервних функцій існують такі методи, як спуск градієнта, які знаходять найближчий локальний мінімум. Вони набагато швидше, тому широко застосовуються на практиці. Але, враховуючи достатньо часу, колишня група методів випереджає більш пізні терміни в плані тренування. Але з розумним обмеженням у часі, для проблем із реальним світом, остання група зазвичай краща.
Для деяких моделей, як-от логістична регресія, існує один локальний мінімум, функція опукла, мінімізація сходить до мінімуму, але самі моделі спрощені.
Це гірка правда.
Зауважимо також, що доказ конвергенції та доказ зближення найкращого рішення - це дві різні речі. Алгоритм К-засобів є прикладом цього.
Нарешті, для деяких моделей ми взагалі не знаємо, як навчитися. Наприклад, якщо вихід є довільною обчислювальною функцією входів, ми не знаємо хороших алгоритмів, які в розумний час знаходять Тьюрінга або аналогічну машину, що реалізує цю функцію. Наприклад, якщо f (1) = 2, f (2) = 3, f (3) = 5, f (4) = 7, ..., f (10) = 29 (десять перших праймерів), ми робимо Я не знаю жодного алгоритму навчання, який міг би передбачити у розумний час, що f (11) = 31, якщо тільки він уже не знає поняття простих чисел.