Помилка класифікації насправді іноді простежується. Це можна оптимізувати ефективно - хоча і не зовсім - за допомогою методу Нелдера-Мід, як показано в цій статті:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
"Зменшення розмірів - це процес перетворення багатовимірних векторів у низькомірний простір. При розпізнаванні візерунків часто бажано, щоб це завдання виконувались без значної втрати класифікаційної інформації. Помилка Байєса є ідеальним критерієм для цієї мети; однак, Математичне лікування, як відомо, є важким. Отже, на практиці використовуються неоптимальні критерії. Ми пропонуємо альтернативний критерій, заснований на оцінці помилки Байєса, який, сподіваємось, наближається до оптимального критерію, ніж критерії, які використовуються На основі цього критерію розробляється і реалізується алгоритм зменшення лінійних розмірів. Експерименти демонструють його найкращі показники порівняно зі звичайними алгоритмами ".
Згадана тут помилка Байєса - це в основному втрата 0-1.
Ця робота була зроблена в контексті лінійного зменшення розмірів. Я не знаю, наскільки ефективно це було б для навчання мереж глибокого навчання. Але справа в тому, і відповідь на питання: втрата 0-1 не є універсально непереборною. Це можна порівняно добре оптимізувати принаймні для деяких типів моделей.