3
Пакетний градієнтний спуск порівняно зі стохастичним градієнтом
Припустимо, у нас є якийсь навчальний набір для . Припустимо також, що ми використовуємо певний тип алгоритму керованого навчання на навчальному наборі. Гіпотези представлені у вигляді . Нам потрібно знайти параметри які мінімізують "відстань" між і . Нехай(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} …