Функція втрати коефіцієнта кістки та поперечної ентропії


27

Під час навчання піксельних нейронних мереж сегментації пікселів, таких як повністю згорнуті мережі, як ви приймаєте рішення використовувати функцію втрати перехресної ентропії та функцію втрати коефіцієнта кістки?

Я усвідомлюю, що це коротке запитання, але не зовсім впевнений, яку ще інформацію надавати. Я переглянув купу документації про дві функції втрат, але не можу зрозуміти, коли використовувати одну над іншою.


Чому б не застосувати практичний підхід для використання обох та порівняння результатів. Дивлячись на безліч різних областей застосування, обговорення функції втрат є власною темою розширених досліджень. Оскільки конволюційні мережі все ще залишаються «гарячою темою», я б припустив, що більшість робіт все ж таки будуть опубліковані в майбутньому.
херувим

Відповіді:


27

Однією з переконливих причин використання перехресної ентропії над коефіцієнтом кістки або аналогічною метрикою IoU є те, що градієнти приємніші.

Градієнти перехресної ентропії wrt логіти - це щось на зразок , де - виводи програмного забезпечення та - ціль. Тим часом, якщо ми спробуємо записати коефіцієнт кубиків у диференційованій формі: або , то отримані градієнти wrt значно гірші : і . Неважко уявити випадок, коли і і малі, а градієнт вибухає до величезного значення. Загалом, здається, що навчання стане більш нестабільним.p t 2 p tptpt 2pt2ptp2+t2 p2t22ptp+tp 2t(t2-p2)2t2(p+t)2 pt2t(t2p2)(p2+t2)2pt


Основна причина, через яку люди намагаються використовувати коефіцієнт кубиків або IoU безпосередньо, полягає в тому, що фактична мета - максимізація цих показників, а крос-ентропія - це лише проксі, який легше максимізувати за допомогою зворотного розповсюдження. Крім того, коефіцієнт кубика має кращу ефективність при неврівноважених класових проблемах за рахунок дизайну:

Однак, для дисбалансу класів, як правило, можна подолати, просто призначивши множники збитків кожному класу, таким чином, що мережа сильно десенсивізована, щоб просто ігнорувати клас, який з’являється нечасто, тому незрозуміло, що в цих випадках коефіцієнт кістки дійсно необхідний.


Я б почав із крос-ентропійних втрат, які, здається, є стандартними втратами для навчальних мереж сегментації, якщо тільки не було справді вагомої причини використовувати коефіцієнт кубика.


Хрестова ентропія всіх експоненціальних сімей є приємною різницею . pt
Ніл Г

3
Коли "головна мета" - максимізація втрат кісток? Я перевірив оригінальний документ, і все, що вони говорять: "ми отримуємо результати, які ми експериментально спостерігали, набагато кращі, ніж ті, які обчислюються за допомогою однієї і тієї ж мережі, навченої оптимізуючи багаточленну логістичну втрату з повторним зважуванням вибірки". Це не дуже переконливо.
Ніл Г

@shimao Під "некрасивим" ви просто маєте на увазі, що градієнти можуть вибухнути, це правильно?
недолік

17

Як узагальнили @shimao та @cherub, не можна сказати, які з них краще працюватимуть для конкретного набору даних. Правильний спосіб - спробувати обидва і порівняти результати. Також зауважте, що якщо мова йде про сегментацію, "порівняти результати" не так просто : заходи, засновані на ІУ, як коефіцієнт кістки, охоплюють лише деякі аспекти якості сегментації; у деяких програмах потрібно застосовувати різні заходи, такі як середня відстань до поверхні або поверхнева відстань Хаусдорфа . Як бачите, навіть вибір правильної метрики якості є тривіальним, не кажучи вже про вибір найкращої функції витрат.

Я особисто маю дуже хороший досвід роботи з коефіцієнтом кістки; це справді робить чудеса, коли мова йде про класовий дисбаланс (деякі сегменти займають менше пікселів / вокселів, ніж інші). З іншого боку, крива помилок тренінгу стає тотальним безладом: вона не дала мені абсолютно ніякої інформації про конвергенцію, тому в цьому плані перемагає перехресна ентропія. Звичайно, це можна / слід обійти, перевіривши помилку перевірки в будь-якому випадку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.