У вас буде один глобальний мінімум, якщо проблема опукла або квазіконвексована.
Про опуклі "будівельні блоки" під час побудови нейронних мереж (версія Computer Science)
Я думаю, що їх можна згадати декілька:
max (0, x) - опукла і зростаюча
log-sum-exp - опуклий і збільшується в кожному параметрі
y = Ax є афінним і таким чином опуклим у (A), може збільшуватися, можливо, зменшуючись. y = Ax є афінним і таким чином опуклим у (x), може збільшуватися, можливо, зменшуючись.
На жаль, він не опуклий у (A, x), оскільки виглядає як невизначена квадратична форма.
Звичайна математична дискретна згортання (під "звичайним" я маю на увазі визначений повторюваним сигналом) Y = h * X Здається, що це афінна функція h або змінної X. Отже, це опукла у змінній h або в змінній X. Про обидві змінні - Я не думаю, що тому, коли h і X скаляри, то згортання зменшиться до невизначеної квадратичної форми.
max (f, g) - якщо f і g опуклі, то max (f, g) також опуклі.
Якщо ви замінюєте одну функцію на іншу і створюєте композиції, то все ще знаходитесь у опуклій кімнаті для y = h (g (x), q (x)), але h повинна бути опуклою і повинна збільшуватися (не зменшуватися) у кожному аргументі. ...
Чому нейронні сітки в невипуклій:
Я думаю, що згортка Y = h * X не обов'язково збільшується в h. Отже, якщо ви не використовуєте зайвих припущень щодо ядра, ви вийдете з опуклої оптимізації негайно після застосування згортки. Тож не все добре із складом .
Також згортання та множення матриць не є опуклим, якщо врахувати пара параметрів, як було зазначено вище. Таким чином, виникають проблеми з множенням матриць: це невипукла операція в параметрах (A, x)
y = Ax може бути квазівипуклий у (A, x), але також слід враховувати додаткові припущення.
Будь ласка, дайте мені знати, якщо ви не погоджуєтесь або маєте додаткове розгляд. Питання мені також дуже цікаве.
ps max-pooling - що зменшення розміру при виборі max виглядає як деяка модифікація операцій елементарного максу з афінною попередньою композицією (для витягування потрібних блоків), і для мене це виглядає опукло.
Про інші питання
Ні, логістична регресія не є опуклою чи увігнутою, але є лога-увігнутою. Це означає, що після застосування логарифму ви будете мати увігнуту функцію в пояснювальних змінних. Отже, тут максимально можливий трюк з можливістю журналу.
Якщо є не один глобальний мінімум. Нічого не можна сказати про співвідношення між місцевими мінімумами. Або принаймні ви не можете використовувати опуклу оптимізацію та її розширення, тому що ця область математики глибоко заснована на глобальному заниженні.
Можливо, у вас є плутанина щодо цього. Тому що насправді люди, які створюють такі схеми, просто роблять «щось», і вони отримують «щось». На жаль, тому що ми не маємо досконалого механізму для вирішення невипуклої оптимізації (загалом).
Але є ще більш прості речі поряд з нейронними мережами - які не можна вирішити, як нелінійні найменші квадрати - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)