Чи є загальною практикою мінімізація середньої втрати за партіями замість суми?

17

Tensorflow має приклад навчального посібника щодо класифікації CIFAR-10 . У підручнику середня поперечна втрата ентропії по всій партії зведена до мінімуму.

def loss(logits, labels):
  """Add L2Loss to all the trainable variables.
  Add summary for for "Loss" and "Loss/avg".
  Args:
    logits: Logits from inference().
    labels: Labels from distorted_inputs or inputs(). 1-D tensor
            of shape [batch_size]
  Returns:
    Loss tensor of type float.
  """
  # Calculate the average cross entropy loss across the batch.
  labels = tf.cast(labels, tf.int64)
  cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(
      logits, labels, name='cross_entropy_per_example')
  cross_entropy_mean = tf.reduce_mean(cross_entropy, name='cross_entropy')
  tf.add_to_collection('losses', cross_entropy_mean)

  # The total loss is defined as the cross entropy loss plus all of the weight
  # decay terms (L2 loss).
  return tf.add_n(tf.get_collection('losses'), name='total_loss')

Див. Cifar10.py , рядок 267.

Чому натомість це не мінімізує суму по всій партії? Це має значення? Я не розумію, як це вплине на обчислення заднього плану.

neural-networks loss-functions tensorflow

— Сутичка
джерело

Не точно пов’язані з сумою / середньою сумою, але вибір втрат - це вибір дизайну програми. Наприклад, якщо вам добре в середньому правильно, оптимізуйте середнє значення. Якщо ваш додаток чутливий до найгіршого випадку (наприклад, автомобільної аварії), вам слід оптимізувати максимальне значення.

— Алекс Креймер

Дивіться також: stats.stackexchange.com/questions/358786/…

— Sycorax

17

Як згадував pkubik, зазвичай існує термін регуляризації параметрів, які не залежать від введення, наприклад, в tensorflow це як

# Loss function using L2 Regularization
regularizer = tf.nn.l2_loss(weights)
loss = tf.reduce_mean(loss + beta * regularizer)

У цьому випадку усереднення по міні-партії допомагає зберігати фіксований коефіцієнт між cross_entropyвтратою та regularizerвтратою при зміні розміру партії.

Більше того, швидкість навчання також чутлива до величини втрат (градієнта), тому для нормалізації результатів різних розмірів партії прийняття середнього виглядає кращим варіантом.

Оновлення

Цей документ від Facebook (точно, великий міні-пакет SGD: Training ImageNet за 1 годину) показує, що фактично масштабування рівня навчання відповідно до розміру партії працює досить добре:

Правило лінійного масштабування: Коли розмір міні-партії множиться на k, помножте ступінь навчання на k.

що по суті те саме, що помножити градієнт на k і зберегти рівень навчання незмінним, тому, мабуть, брати середній показник не потрібно.

— dontloo
джерело

8

Я зупинюсь на частині:

Я не розумію, як це вплине на обчислення заднього плану.

$\frac{1}{B}$ $L_{SUM} = B \cdot L_{AVG}$ $B$ $\frac{d L_{SUM}}{{dx}} = B \frac{d L_{AVG}}{{dx}}$

\frac{d L}{d x} = lim_{Δ \to 0} \frac{L (x + Δ) - L (x)}{Δ}

$\frac{dL}{{dx}} = \mathop {\lim }\limits_{\Delta \to 0} \frac{{L\left( {x + \Delta } \right) - L\left( x \right)}}{\Delta }$

\frac{d (c \cdot L)}{d x} = lim_{Δ \to 0} \frac{c \cdot L (x + Δ) - c \cdot L (x)}{Δ}

$\frac{d (c \cdot L)}{{dx}} = \mathop {\lim }\limits_{\Delta \to 0} \frac{{c \cdot L\left( {x + \Delta } \right) - c \cdot L\left( x \right)}}{\Delta }$

\frac{d (c \cdot L)}{d x} = c \cdot lim_{Δ \to 0} \frac{L (x + Δ) - L (x)}{Δ} = c \cdot \frac{d L}{d x}

$\frac{d (c \cdot L)}{{dx}} = c \cdot \mathop {\lim }\limits_{\Delta \to 0} \frac{{L\left( {x + \Delta } \right) - L\left( x \right)}}{\Delta } = c \cdot \frac{d L}{{dx}}$

У SGD ми б оновлювали ваги, використовуючи їх градієнт, помножений на швидкість навчання і ми можемо чітко бачити, що ми можемо вибрати цей параметр таким чином, щоб остаточне оновлення ваг було рівним. Перше правило оновлення: і друге правило оновлення (уявіть, що ): $\lambda$

W := W + λ_{1} \frac{d L_{S U M}}{d W}

$W := W + \lambda_1 \frac{dL_{SUM}}{dW}$

λ_{1} = \frac{λ_{2}}{B}

$\lambda_1 = \frac{\lambda_2}{B}$

W := W + λ_{1} \frac{d L_{A V G}}{d W} = W + \frac{λ_{2}}{B} \frac{d L_{S U M}}{d W}

$W := W + \lambda_1 \frac{dL_{AVG}}{dW} = W + \frac{\lambda_2}{B} \frac{dL_{SUM}}{dW}$

Відмінна знахідка dontloo може підказати, що використання суми може бути трохи більш підходящим підходом. Для виправдання середнього показника, який здається більш популярним, я додам, що використання суми, ймовірно, може викликати деякі проблеми з регуляцією ваги. Налаштування коефіцієнта масштабування регуляторів для різних розмірів партії може бути настільки ж дратівливим, як і налаштування швидкості навчання.

— пкубік
джерело