Запитання з тегом «gradient-descent»

Спуск градієнта - алгоритм ітеративної оптимізації першого порядку. Щоб знайти локальний мінімум функції з використанням градієнтного спуску, потрібно зробити кроки, пропорційні негативному градієнту (або приблизному градієнту) функції в поточній точці. Для стохастичного градієнтного спуску також є тег [sgd].

5
Чому k-означає не дає глобального мінімуму?
Я читав, що алгоритм k-означає сходиться лише до локального мінімуму, а не до глобального мінімуму. Чому це? Я логічно можу подумати про те, як ініціалізація могла б вплинути на остаточну кластеризацію, і існує можливість субоптимальної кластеризації, але я не знайшов нічого, що це математично доведе. Крім того, чому k - …

1
Як стохастичний градієнтний спуск може заощадити час порівняно зі звичайним градієнтним спуском?
Стандартний градієнт спуск обчислює градієнт для всього навчального набору даних. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заздалегідь визначеної кількості епох спочатку обчислюємо градієнтний вектор weights_grad функції втрат для всього набору даних із параметрами вектора параметрів. Стохастичний градієнтний спуск, навпаки, …


3
Яка різниця між онлайн та пакетним навчанням?
Зараз я читаю статтю « Ефективне навчання в режимі он-лайн та пакетне навчання», використовуючи розділення «Вперед-назад», розроблені Джоном Дючі та Йорамом Зінгер. Мене дуже бентежить використання термінів "Інтернет" та "Пакет". Я подумав, що "Інтернет" означає, що ми оновлюємо вагові параметри після обробки однієї одиниці даних тренувань. Потім ми використовуємо нові …

1
Роз'яснення щодо правила Perceptron vs. Gradient Descent проти Stohastic Gradient Descent
Я трохи експериментував з різними реалізаціями Perceptron і хочу переконатися, чи правильно я розумію "ітерації". Первісне правило персептрона Розенблатта Наскільки я розумію, в класичному алгоритмі Розенблатта ваги одночасно оновлюються після кожного прикладу тренувань через Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i де - це правило навчання. І цільове, і фактичне …

1
Сума або середнє значення градієнтів у (міні) градієнті партії пристойне?
Коли я реалізував пристойний міні-градієнт градієнта, я просто усереднював градієнти всіх прикладів у навчальній партії. Однак я помітив, що зараз оптимальна швидкість навчання набагато вища, ніж для онлайн-градієнтів пристойних. Моя інтуїція полягає в тому, що це тому, що усереднений градієнт менш шумний, і тому він може дотримуватися швидше. Тож, можливо, …

1
Як CNN уникає зникаючої градієнтної проблеми
Я багато читав про нейромережі, що розвиваються, і цікавився, як вони уникають проблеми градієнта, що зникає. Я знаю, що мережі глибокої віри складають однорівневі автокодери або інші заздалегідь підготовлені неглибокі мережі, і таким чином можна уникнути цієї проблеми, але я не знаю, як цього уникнути в CNN. За даними Вікіпедії …

1
Чому ми не використовуємо непостійні показники навчання для гідного градієнта для речей, відмінних від нейронних мереж?
Література поглибленого вивчення повна розумних хитрощів із використанням непостійних темпів навчання в градієнтному узвозі. Такі речі, як експоненціальний розпад, RMSprop, Adagrad тощо, легко здійснити і доступні у кожному глибокому навчальному пакеті, проте вони, як видається, не існують поза нейронних мереж. Чи є для цього причина? Якщо люди просто не хвилюються, …

4
Як можна потрапити в пастку на сідло?
Наразі я трохи здивований тим, як міні-пакетний градієнтний спуск може бути захоплений у точці сідла. Рішення може бути занадто банальним, щоб я його не розумів. Ви отримуєте новий зразок кожної епохи, і він обчислює нову помилку на основі нової партії, тому функція витрат є лише статичною для кожної партії, що …

1
Функції витрат для контекстних бандитів
Я використовую vowpal wabbit для вирішення контекстно-бандитської проблеми . Я показую рекламу користувачам, і я маю досить небагато інформації про контекст, у якому відображається реклама (наприклад, хто такий користувач, на якому веб-сайті вони перебувають тощо). Це, здається, є досить класичною контекстуальною бандитською проблемою, як описав Джон Ленгфорд . У моїй …

2
Функція градієнта спуска проти lm () функція в R?
Я переглядаю відеозаписи на безкоштовному онлайн-курсі машинного навчання Ендрю Нґ в Стенфорді. Він розглядає спуск градієнта як алгоритм вирішення лінійної регресії та функції запису в Octave для його виконання. Імовірно, я міг би переписати ці функції в R, але моє запитання: чи функція lm () вже не дає мені вихід …

5
Чому спуск градієнта неефективний для великого набору даних?
Скажімо, наш набір даних містить 1 мільйон прикладів, тобто , і ми хочемо використовувати спуск градієнта для виконання логістичної або лінійної регресії на цих наборах даних.х1, … , Х106x1,…,x106x_1, \ldots, x_{10^6} Що це з методом градієнтного спуску робить його неефективним? Нагадаємо, що крок градієнта спуску в момент часу задається:тtt шt …

1
Чому на практиці не застосовується алгоритм спуску «Без сідла» Ньютона?
Нещодавно я прочитав статтю Янна Дофіна та ін. Виявлення та атака проблеми сідлових точок у великомірній невипуклій оптимізації , де вони запроваджують цікавий алгоритм спуску під назвою Ньютон , що не є сідлом , який, здається, є спеціально розробленим для оптимізації нейронної мережі і не повинен страждати від застрявання в …

2
Можна оцінити GLM в Python / scikit-learn, використовуючи розподіли Poisson, Gamma або Tweedie як сімейство для розподілу помилок?
Намагаюся вивчити деякі Python та Sklearn, але для своєї роботи мені потрібно запустити регресії, які використовують розподіл помилок із сімей Пуассона, Гамми та особливо Tweedie. Я нічого не бачу в документації про них, але вони знаходяться в декількох частинах розподілу R, тому мені було цікаво, чи хтось бачив реалізацію для …

1
Вибір відповідного розміру міні-партії для стохастичного градієнтного спуску (SGD)
Чи є література, яка вивчає вибір розміру міні-партії при виконанні стохастичного градієнтного спуску? На мій досвід, це здається, що це емпіричний вибір, який зазвичай виявляється шляхом перехресної перевірки або з використанням різних правил. Це гарна ідея повільно збільшувати розмір міні-партії, оскільки зменшується помилка перевірки? Які наслідки це матиме на помилку …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.