Чи завжди середня квадратична помилка є опуклою в контексті нейронних мереж?


9

Кілька ресурсів, про які я згадував, згадували, що MSE чудовий тим, що він опуклий. Але я цього не розумію, особливо в умовах нейронних мереж.

Скажімо, у нас є наступне:

  • Х : навчальний набір даних
  • Y : цілі
  • Θ : набір параметрів моделі (модель нейронної мережі з нелінійностями)fΘ

Тоді:

MSE(Θ)=(fΘ(Х)-Y)2

Чому ця функція втрат завжди була опуклою? Чи залежить це від ?fΘ(Х)

Відповіді:


1

Відповідь коротко: MSE опукло на вході та параметрах само по собі. Але в довільній нейронній мережі вона не завжди опукла через наявність нелінійностей у вигляді функцій активації. Джерело моєї відповіді - тут .


1

Опуклість

Функція f(х)при випукла, якщо для будь-якого , і для будь-якого , хΧх1Χх2Χ0λ1

f(λх1+(1-λ)х2)λf(х1)+(1-λ)f(х2).

Можна довести, що такий опуклий має один глобальний мінімум. Унікальний глобальний мінімум усуває пастки, створені локальними мінімумами, які можуть виникати в алгоритмах, які намагаються досягти конвергенції на глобальному мінімумі, наприклад мінімізації функції помилок.f(х)

Хоча функція помилки може бути на 100% надійною у всіх безперервних, лінійних контекстах та багатьох нелінійних контекстах, це не означає зближення на глобальному мінімумі для всіх можливих нелінійних контекстів.

Середня квадратична помилка

Дана функція описує ідеальну поведінку системи та модель системи (де - вектор параметрів, матриця, куб або гіперкуб і ), створена раціонально або за допомогою конвергенції (як і в тренуванні з нейронної сітки), функція середньої квадратичної помилки (MSE) може бути представлена ​​наступним чином.с(х)а(х,p)p1нN

е(β): =N-1н[а(хн)-с(хн)]2

Матеріал, який ви читаєте, ймовірно, не стверджує, що або є опуклими відносно , але що опукло відносно та незалежно від того, якими вони є. Це пізніше твердження можна довести для будь-яких безперервних та . а(х,p)с(х)хе(β)а(х,p)с(х)а(х,p)с(х)

Плутанина в алгоритмі конвергенції

Якщо питання полягає в тому, чи може конкретна і метод досягнення який наближає в межах розумного граничного рівня конвергенції MSE, відповідь - "Так". Ось чому MSE - не єдина модель помилок.а(х,p)с(х)а(х,p)

Підсумок

Найкращим підсумком є ​​те, що слід визначати або вибирати з набору моделей опуклої помилки запасів на основі наступних знань.е(β)

  • Відомі властивості системис(х)
  • Визначення моделі апроксимаціїа(х,p)
  • Тензор використовується для генерування наступного стану в конвергентній послідовності

Набір моделей опуклих запасів, безумовно, включає модель MSE через його простоту та обчислювальну ощадливість.


Отже, коротка відповідь - MSE wrt Theta завжди опукла. Хоча Feedforard (X, Theta) може бути невипуклим?
user74211

Ну, @ user74211, цей коментар насправді не відповідає на питання. Питання, задане спеціально ЯК середня квадратна помилка, завжди може бути опуклою, якщо функція, до якої вона застосовується, не є. Ваш коментар - це підгрупа тверджень у запитанні без потрібного пояснення.
Фахристиян
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.