Штучний інтелект gradient-descent

Чи завжди середня квадратична помилка є опуклою в контексті нейронних мереж?

Кілька ресурсів, про які я згадував, згадували, що MSE чудовий тим, що він опуклий. Але я цього не розумію, особливо в умовах нейронних мереж. Скажімо, у нас є наступне: ХХX : навчальний набір даних YYY : цілі ΘΘ\Theta : набір параметрів моделі (модель нейронної мережі з нелінійностями)fΘfΘf_\Theta Тоді: MSE( Θ …

9 neural-networks math backpropagation gradient-descent

Запитання з тегом «gradient-descent»