Запитання з тегом «sgd»

3
Пакетний градієнтний спуск порівняно зі стохастичним градієнтом
Припустимо, у нас є якийсь навчальний набір для . Припустимо також, що ми використовуємо певний тип алгоритму керованого навчання на навчальному наборі. Гіпотези представлені у вигляді . Нам потрібно знайти параметри які мінімізують "відстань" між і . Нехай(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} …

2
Хто винайшов стохастичний градієнтний спуск?
Я намагаюся зрозуміти історію градиентного методу і стохастичного градієнтного спуску . Градієнтний спуск був винайдений у Коші в 1847 році. Méthode générale pour la résolution des systèmes d'équations simultanées . С. 536–538 Детальніше про це дивіться тут . Відтоді методи градієнтного спуску продовжували розвиватися, і я не знайомий з їх …

6
Для опуклих проблем градієнт стохастичного градієнтного спуску (SGD) завжди вказує на глобальне екстремальне значення?
З огляду на опуклу функцію витрат, використовуючи SGD для оптимізації, ми будемо мати градієнт (вектор) в певний момент під час процесу оптимізації. Моє запитання, з огляду на точку на опуклій, чи градієнт лише вказує в тому напрямку, в якому функція швидко збільшується / зменшується, або градієнт завжди вказує на оптимальну …

3
Як розмір партії впливає на конвергенцію SGD і чому?
Я бачив подібний висновок з багатьох дискусій, що в міру збільшення розміру міні-партії збіжність SGD насправді стає важчим / гіршим, наприклад, цей документ і ця відповідь . Також я чув, що люди на ранніх етапах використовують такі хитрощі, як невеликі темпи навчання або розмір партії, щоб вирішити цю складність при …

1
Як стохастичний градієнтний спуск може заощадити час порівняно зі звичайним градієнтним спуском?
Стандартний градієнт спуск обчислює градієнт для всього навчального набору даних. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заздалегідь визначеної кількості епох спочатку обчислюємо градієнтний вектор weights_grad функції втрат для всього набору даних із параметрами вектора параметрів. Стохастичний градієнтний спуск, навпаки, …

4
Як можна потрапити в пастку на сідло?
Наразі я трохи здивований тим, як міні-пакетний градієнтний спуск може бути захоплений у точці сідла. Рішення може бути занадто банальним, щоб я його не розумів. Ви отримуєте новий зразок кожної епохи, і він обчислює нову помилку на основі нової партії, тому функція витрат є лише статичною для кожної партії, що …

1
RMSProp та Adam проти SGD
Я виконую експерименти над набором валідації EMNIST, використовуючи мережі з RMSProp, Adam та SGD. Я досягаю 87% точності за допомогою SGD (ступінь навчання 0,1) та випадання (0,1 випадання задачі), а також регуляризація L2 (1e-05 штраф). Перевіряючи таку саму точну конфігурацію з RMSProp та Адамом, а також початковий рівень навчання 0,001, …

1
Яка різниця між VAE і стохастичним зворотним розповсюдженням для глибоких генеративних моделей?
Яка різниця між автоматичним кодуванням варіабельних баєсів і стохастичним зворотним розповсюдженням для глибоких генеративних моделей ? Чи веде висновок в обох методах до однакових результатів? Мені невідомі явні явні порівняння між двома методами, незважаючи на те, що обидві групи авторів цитують один одного.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.