Перш за все, я зрозумів, що якщо мені потрібно виконувати двійкові прогнози, я повинен створити принаймні два класи за допомогою кодування з гарячим кодуванням. Це правильно? Однак чи є бінарна перехресна ентропія лише для прогнозів, що мають лише один клас? Якби я використовував категоричну перехресну втрату ентропії, яка зазвичай зустрічається в більшості бібліотек (наприклад, TensorFlow), чи була б значна різниця?
Насправді, які точні відмінності між категоріальною та бінарною крос-ентропією? Я ніколи не бачив втілення бінарної перехресної ентропії в TensorFlow, тому я вважав, що, можливо, категоричний працює так само добре.