Я намагаюся зрозуміти оптимізацію градієнта спуску в алгоритмах ML (машинне навчання). Я розумію, що існує функція витрат - де мета - мінімізувати помилку . У сценарії, коли ваги оптимізуються, щоб дати мінімальну помилку, і використовуються часткові похідні, чи змінюються вони як і на кожному кроці чи це комбінація (наприклад, у кількох ітераціях лише і коли більше не зменшує помилку, похідна починається з )? Додаток може бути лінійною регресійною моделлю, логістичною регресійною моделлю або алгоритмами підвищення.
w1
, зменшенняw2
на основі напрямку від часткової похідної до локальних мінімумів і просто для підтвердження алгоритму не обов'язково завжди даватись глобальні мінімуми?