Запитання з тегом «gradient-descent»

Спуск градієнта - алгоритм ітеративної оптимізації першого порядку. Щоб знайти локальний мінімум функції з використанням градієнтного спуску, потрібно зробити кроки, пропорційні негативному градієнту (або приблизному градієнту) функції в поточній точці. Для стохастичного градієнтного спуску також є тег [sgd].

6
Чому б не використати третю похідну для чисельної оптимізації?
Якщо гессіанці настільки хороші для оптимізації (див., Наприклад , метод Ньютона ), навіщо зупинятися на цьому? Давайте скористаємось похідними третьої, четвертої, п’ятої та шостої? Чому ні?

4
Як походить функція витрат з логістичної регресії
Я роблю курс машинного навчання Стенфорда на Coursera. У главі з логістичної регресії функція витрат така: Потім, це похідне тут: Я намагався отримати похідну від функції витрат, але отримав щось зовсім інше. Як отримується похідна? Які є посередницькими кроками?


6
Для опуклих проблем градієнт стохастичного градієнтного спуску (SGD) завжди вказує на глобальне екстремальне значення?
З огляду на опуклу функцію витрат, використовуючи SGD для оптимізації, ми будемо мати градієнт (вектор) в певний момент під час процесу оптимізації. Моє запитання, з огляду на точку на опуклій, чи градієнт лише вказує в тому напрямку, в якому функція швидко збільшується / зменшується, або градієнт завжди вказує на оптимальну …

1
Як визначити умову закінчення для спуску градієнта?
Власне, я хотів запитати вас, як я можу визначити умову, що закінчується для спуску градієнта. Чи можу я зупинити його на основі кількості ітерацій, тобто враховуючи значення параметрів для, скажімо, 100 ітерацій? Або я повинен зачекати так, що різні в двох параметрах значення "new" і "old" дуже малі на порядок …

3
Координатний та градієнтний спуск
Мені було цікаво, які різні випадки використання для двох алгоритмів, Координатного спуску та Градієнтного Спуску . Я знаю, що спуск координат має проблеми з негладкими функціями, але він використовується в популярних алгоритмах, таких як SVM і LASSO. Однак градієнтний спуск, на мою думку, застосовується ширше, особливо при відродженні ANN та …

1
Поширення градієнта через пропускні з'єднання ResNet
Мені цікаво, як градієнти розповсюджуються назад через нейронну мережу за допомогою модулів ResNet / пропускають з'єднання. Я бачив кілька запитань щодо ResNet (наприклад, нейромережа зі зв’язками пропускового шару ), але це запитує конкретно про зворотне поширення градієнтів під час тренування. Основна архітектура тут: Я читаю цю статтю « Вивчення залишкових …

3
Навіщо використовувати спуск градієнта з нейронними мережами?
Під час тренування нейронної мережі з використанням алгоритму зворотного розповсюдження використовується метод градієнтного спуску для визначення оновлень ваги. Моє запитання: Замість того, щоб використовувати метод градієнтного спуску, щоб повільно знаходити мінімальну точку щодо певної ваги, чому ми не просто встановимо похідну , і знайти значення вагиw,яке мінімізує помилку?d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www Крім того, …

3
Чи можливий градієнтний спуск для kernelized SVM (якщо так, то чому люди використовують квадратичне програмування)?
Чому люди використовують методи квадратичного програмування (наприклад, SMO) при роботі з ядрами SVM? Що не так з градієнтним узвозом? Чи неможливо користуватися ядрами або це занадто повільно (і чому?). Ось трохи більше контексту: намагаючись зрозуміти SVMs трохи краще, я використовував Gradient Descent для підготовки лінійного класифікатора SVM, використовуючи наступну функцію …

3
Від правила Perceptron до градієнтного походження: чим відрізняються перцептрони з сигмоїдною активаційною функцією від логістичної регресії?
По суті, моє питання полягає в тому, що в багатошарових перцептронах персептрони використовуються з функцією активації сигмоїдів. Так що в правилі поновлення у обчислюється якy^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} = \frac{1}{1+\exp(-\mathbf{w}^T\mathbf{x}_i)} Чим цей «сигмоїдний» Перцепцепрон відрізняється від логістичної регресії тоді? Я б сказав , що одношаровий персептрон сигмовидної еквівалентно логістичної регресії в тому …

2
Чому в нейронних мережах застосовують градієнтні методи, а не інші метагевристики?
При навчанні глибоких і неглибоких нейронних мереж, чому градієнтні методи (наприклад, спуск градієнта, Нестеров, Ньютон-Рафсон), зазвичай використовуються, на відміну від інших метагевристів? Під метагевристикою я маю на увазі такі методи, як імітація відпалу, оптимізація колоній мурашок тощо, які були розроблені, щоб уникнути застрявання в локальних мінімумах.

3
Коли генетичні алгоритми є хорошим вибором для оптимізації?
Генетичні алгоритми є однією з форм методу оптимізації. Часто стохастичний градієнтний спуск та його похідні є найкращим вибором для оптимізації функцій, але генетичні алгоритми все ще іноді застосовуються. Наприклад, антена космічного корабля ST5 NASA була створена за допомогою генетичного алгоритму: Коли методи генетичної оптимізації є кращим вибором, ніж більш поширені …

3
Чи може бути кілька локальних оптимальних рішень, коли ми вирішуємо лінійну регресію?
Я читаю це твердження на одному старому істинному / хибному іспиті: Ми можемо отримати декілька локальних оптимальних рішень, якщо вирішити задачу лінійної регресії шляхом мінімізації суми помилок у квадраті за допомогою градієнтного спуску. Рішення: помилкове Моє запитання, яка частина цього питання неправильна? Чому це твердження хибне?


3
Як розмір партії впливає на конвергенцію SGD і чому?
Я бачив подібний висновок з багатьох дискусій, що в міру збільшення розміру міні-партії збіжність SGD насправді стає важчим / гіршим, наприклад, цей документ і ця відповідь . Також я чув, що люди на ранніх етапах використовують такі хитрощі, як невеликі темпи навчання або розмір партії, щоб вирішити цю складність при …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.