Однією з переконливих причин використання перехресної ентропії над коефіцієнтом кістки або аналогічною метрикою IoU є те, що градієнти приємніші.
Градієнти перехресної ентропії wrt логіти - це щось на зразок , де - виводи програмного забезпечення та - ціль. Тим часом, якщо ми спробуємо записати коефіцієнт кубиків у диференційованій формі: або , то отримані градієнти wrt значно гірші : і . Неважко уявити випадок, коли і і малі, а градієнт вибухає до величезного значення. Загалом, здається, що навчання стане більш нестабільним.p t 2 p tp−tpt 2pt2ptp2+t2 p2t22ptp+tp 2t(t2-p2)2t2(p+t)2 pt2t(t2−p2)(p2+t2)2pt
Основна причина, через яку люди намагаються використовувати коефіцієнт кубиків або IoU безпосередньо, полягає в тому, що фактична мета - максимізація цих показників, а крос-ентропія - це лише проксі, який легше максимізувати за допомогою зворотного розповсюдження. Крім того, коефіцієнт кубика має кращу ефективність при неврівноважених класових проблемах за рахунок дизайну:
Однак, для дисбалансу класів, як правило, можна подолати, просто призначивши множники збитків кожному класу, таким чином, що мережа сильно десенсивізована, щоб просто ігнорувати клас, який з’являється нечасто, тому незрозуміло, що в цих випадках коефіцієнт кістки дійсно необхідний.
Я б почав із крос-ентропійних втрат, які, здається, є стандартними втратами для навчальних мереж сегментації, якщо тільки не було справді вагомої причини використовувати коефіцієнт кубика.