Запитання з тегом «gradient-descent»

Спуск градієнта - алгоритм ітеративної оптимізації першого порядку. Щоб знайти локальний мінімум функції з використанням градієнтного спуску, потрібно зробити кроки, пропорційні негативному градієнту (або приблизному градієнту) функції в поточній точці. Для стохастичного градієнтного спуску також є тег [sgd].

8
Чому метод Ньютона не широко застосовується в машинному навчанні?
Це те, що мене клопоче якийсь час, і я не зміг знайти задовільних відповідей в Інтернеті, тож ось: Переглянувши набір лекцій з питань опуклої оптимізації, метод Ньютона, здається, є значно кращим алгоритмом, ніж градієнтне сходження, щоб знайти глобально оптимальні рішення, тому що метод Ньютона може забезпечити гарантію його рішення, він …

3
Пакетний градієнтний спуск порівняно зі стохастичним градієнтом
Припустимо, у нас є якийсь навчальний набір для . Припустимо також, що ми використовуємо певний тип алгоритму керованого навчання на навчальному наборі. Гіпотези представлені у вигляді . Нам потрібно знайти параметри які мінімізують "відстань" між і . Нехай(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} …

6
Навіщо використовувати градієнтний спуск для лінійної регресії, коли доступний математичний розчин закритої форми?
Я проходив курси машинного навчання в Інтернеті та дізнався про градієнтний спуск для обчислення оптимальних значень у гіпотезі. h(x) = B0 + B1X чому нам потрібно використовувати Gradient Descent, якщо нам легко знайти значення за наведеною нижче формулою? Це виглядає прямо вперед і легко. але GD потребує декількох ітерацій, щоб …

2
Вирішення параметрів регресії у закритому вигляді та градієнті спуску
У курсі машинного навчання Ендрю Нґ він вводить лінійну регресію та логістичну регресію та показує, як підігнати параметри моделі за допомогою градієнтного спуску та методу Ньютона. Я знаю, що градієнтний спуск може бути корисним для деяких застосувань машинного навчання (наприклад, зворотної пропорції), але в більш загальному випадку є якась причина, …

3
Чому дослідники нейронної мережі піклуються про епохи?
Епоха стохастичного градієнтного спуску визначається як один прохід через дані. Для кожної міні-партії SGD малюється зразків, обчислюється градієнт і параметри оновлюються. У налаштуваннях епохи проби беруть без заміни.kkk Але це здається непотрібним. Чому б не намалювати кожну міні-партію SGD так, як випадково витягується з усього набору даних при кожній ітерації? …

7
Оптимізація, коли функція витрат повільно оцінюється
Градієнтний спуск та багато інших методів корисні для пошуку місцевих мінімумів у функціях витрат. Вони можуть бути ефективними, коли функцію витрат можна швидко оцінити в кожній точці, чисельно, чи аналітично. У мене є те, що мені здається незвичайною ситуацією. Кожна оцінка моєї функції витрат дорога. Я намагаюся знайти набір параметрів, …

6
Оптимізатор Адама з експоненціальним розпадом
У більшості кодів Tensorflow, який я бачив, використовується оптимізатор Адама з постійною швидкістю навчання 1e-4(тобто 0,0001). Код зазвичай виглядає наступним чином: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

1
Яким повинен бути розмір партії для стохастичного градієнтного спуску?
Я розумію, що стохастичний градієнтний спуск може бути використаний для оптимізації нейронної мережі за допомогою зворотного розповсюдження шляхом оновлення кожної ітерації іншим зразком навчального набору даних. Яким повинен бути розмір партії?

4
Яка різниця між нахилом градієнта на основі імпульсу та прискореним градієнтом спуску Нестерова?
Тож спуск на градієнті на основі імпульсу працює так: v = s e l f. m o m e n t u m ∗ m - l r ∗ gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g де - попереднє оновлення ваги, а g - поточний градієнт щодо параметрів p , l r - рівень навчання, а …

1
Різниця між GradientDescentOptimizer та AdamOptimizer (TensorFlow)?
Я написав простий MLP в TensorFlow, який моделює XOR-ворота . Отже для: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] він повинен виробляти наступне: output_data = [[0.], [1.], [1.], [0.]] Мережа має вхідний шар, прихований шар та вихідний шар з 2, 5 та 1 нейроном кожен. В даний …

1
Як працює метод Адама стохастичного градієнтного спуску?
Мені знайомі основні алгоритми спуску градієнта для навчання нейронних мереж. Я прочитав документ, що пропонує Адаму: АДАМ: МЕТОД СТОХАСТИЧНОЇ ОПТИМІЗАЦІЇ . Хоча я, безумовно, отримав деяку інформацію (принаймні), папір здається мені занадто високим рівнем. Наприклад, функція витрат часто є сумою безлічі різних функцій, тому для оптимізації її значення необхідно зробити …

1
Нейронні мережі: імпульс зміни ваги та зменшення ваги
Момент використовується для зменшення коливань змін ваги протягом послідовних ітерацій:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), де - функція помилки, - вектор ваг, - швидкість навчання.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Зниження ваги карає зміни ваги:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Питання полягає в тому, чи є …

4
Як функція прямолінійної активації вирішує проблему градієнта, що зникає, в нейронних мережах?
Я виявив, що випрямлена лінійна одиниця (ReLU) отримала високу оцінку в декількох місцях як рішення проблеми, що втрачає градієнт, для нейронних мереж. Тобто, людина використовує max (0, x) як функцію активації. Коли активація позитивна, очевидно, що це краще, ніж, скажімо, сигмоїдна активаційна функція, оскільки її деривація завжди дорівнює 1 замість …

2
Хто винайшов стохастичний градієнтний спуск?
Я намагаюся зрозуміти історію градиентного методу і стохастичного градієнтного спуску . Градієнтний спуск був винайдений у Коші в 1847 році. Méthode générale pour la résolution des systèmes d'équations simultanées . С. 536–538 Детальніше про це дивіться тут . Відтоді методи градієнтного спуску продовжували розвиватися, і я не знайомий з їх …

2
Чи потрібен нам градієнтний спуск, щоб знайти коефіцієнти лінійної регресійної моделі?
Я намагався засвоїти машинне навчання за допомогою матеріалу Coursera . У цій лекції Ендрю Нг використовує алгоритм спуску градієнта, щоб знайти коефіцієнти лінійної регресійної моделі, які мінімізують функцію помилок (функція витрат). Для лінійної регресії нам потрібен градієнтний спуск? Здається, я можу аналітично диференціювати функцію помилок і встановити її в нуль …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.