Чому функцію втрати 0-1 не можна усунути?


12

У книзі Ієна Гудфеллоу « Глибоке навчання» написано саме так

Іноді функція втрат, яка насправді хвилює (скажімо, помилка класифікації), не є ефективною оптимізацією. Наприклад, точно зведення до мінімуму очікуваних втрат 0-1, як правило, є незмінним (експоненціальним у вхідному вимірі), навіть для лінійного класифікатора. У таких ситуаціях, як правило, оптимізується функція сурогатних втрат, яка виконує функції проксі, але має переваги.

Чому втрати 0-1 непереборні, або як вона експоненціальна у вхідних розмірах?

Відповіді:


18

Функція втрати 0-1 неконвекстна та переривчаста, тому методи (під) градієнта застосовувати не можна. Для двійкової класифікації з лінійним роздільником цю функцію втрати можна сформулювати як пошук що мінімізує середнє значення функції індикатора всіх зразків. Це є експоненціальним у входах, оскільки, оскільки для кожної пари є два можливих значення, існує можливих конфігурацій для перевірки наβ1(уiβхi0)i2ннзагальна кількість вибіркових балів. Це, як відомо, важко для NP. Знання поточного значення функції втрати не дає жодної підказки щодо того, як ви, можливо, модифікуєте своє поточне рішення для поліпшення, як ви могли б отримати, якби були доступні градієнтні методи для опуклих або безперервних функцій.


1
Дуже хороший момент - на практиці випадковий пошук або вичерпний пошук - це єдині методи, за допомогою яких можна знайти мінімум такої функції втрат, правда?
DeltaIV

2
^ може, або еволюційні / ройові розвідувальні методи, можливо?
samra irshad

@samrairshad Так, насправді втрати 0-1 не так вже й рідко можна побачити в еволюційних методах.
Джон Дучетт

Перш ніж перейти від випадкового пошуку до складних еволюційних / ройових алгоритмів, я перевірив метод перехресної ентропії (CEM).
макси

1

Помилка класифікації насправді іноді простежується. Це можна оптимізувати ефективно - хоча і не зовсім - за допомогою методу Нелдера-Мід, як показано в цій статті:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"Зменшення розмірів - це процес перетворення багатовимірних векторів у низькомірний простір. При розпізнаванні візерунків часто бажано, щоб це завдання виконувались без значної втрати класифікаційної інформації. Помилка Байєса є ідеальним критерієм для цієї мети; однак, Математичне лікування, як відомо, є важким. Отже, на практиці використовуються неоптимальні критерії. Ми пропонуємо альтернативний критерій, заснований на оцінці помилки Байєса, який, сподіваємось, наближається до оптимального критерію, ніж критерії, які використовуються На основі цього критерію розробляється і реалізується алгоритм зменшення лінійних розмірів. Експерименти демонструють його найкращі показники порівняно зі звичайними алгоритмами ".

Згадана тут помилка Байєса - це в основному втрата 0-1.

Ця робота була зроблена в контексті лінійного зменшення розмірів. Я не знаю, наскільки ефективно це було б для навчання мереж глибокого навчання. Але справа в тому, і відповідь на питання: втрата 0-1 не є універсально непереборною. Це можна порівняно добре оптимізувати принаймні для деяких типів моделей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.