Я треную нейронну мережу для класифікації набору об'єктів на n-класи. Кожен об'єкт може належати одночасно до декількох класів (багатокласний, багатозначний).
Я читав, що для проблем із класом зазвичай рекомендується використовувати softmax та категоричну перехресну ентропію як функцію втрати замість mse, і я розумію більш-менш чому.
У моїй проблемі мульти-етикетки не було б сенсу використовувати softmax, звичайно, оскільки ймовірність кожного класу повинна бути незалежною від інших. Отже, мій остаточний шар - це просто сигмоподібні одиниці, які розбивають свої входи в діапазон ймовірностей 0..1 для кожного класу.
Тепер я не впевнений, яку функцію втрати я повинен використовувати для цього. Дивлячись на визначення категоріальної кросцентропії, я вважаю, що вона не буде добре застосовуватись до цієї проблеми, оскільки вона враховує лише вихід нейронів, який повинен бути 1, і ігнорує інші.
Бінарна перехресна ентропія звучить так, як вона краще підійде, але я бачу, що вона коли-небудь згадувалась для проблем бінарної класифікації з одним вихідним нейроном.
Я використовую python і keras для тренувань, якщо це важливо.