Що може бути прикладом, коли L2 є хорошою функцією втрат для обчислення задньої втрати?

Втрати L2 разом із втратами L0 та L1 - це три дуже поширені функції "втрати за замовчуванням", які використовуються при підсумовуванні задньої частини за мінімальною очікуваною втратою. Однією з причин цього є, можливо, те, що їх порівняно легко обчислити (принаймні, для 1d-розподілів), L0 призводить до режиму, L1 - медіану, а L2 - в середньому. Викладаючи, я можу придумати сценарії, коли L0 і L1 - це розумні функції втрат (а не просто "за замовчуванням"), але я борюся зі сценарієм, коли L2 був би розумною функцією втрат. Тож моє запитання:

Для педагогічних цілей, що може бути прикладом, коли L2 є хорошою функцією втрат для обчислення мінімальної задньої втрати?

Для L0 легко придумати сценарії ставок. Скажіть, що ви підрахували задню частину загальної кількості голів у майбутньому футбольному матчі, і ви збираєтесь робити ставки, де ви виграєте $$$, якщо правильно вгадаєте кількість голів і програєте інакше. Тоді L0 - це розумна функція втрат.

Мій приклад L1 трохи надуманий. Ви зустрічаєтесь з другом, який приїде в один з багатьох аеропортів, а потім поїде до вас на машині, проблема полягає в тому, що ви не знаєте, в якому аеропорту (і не можете зателефонувати своєму другові, бо вона в повітрі) З огляду на задню частину аеропорту, де вона може приземлитися, де гарне місце розташувати себе, щоб відстань між нею та вами була невеликою, коли вона приїде? Тут точка, що мінімізує очікувані втрати L1, здається розумною, якщо робити спрощені припущення, що її автомобіль буде рухатися з постійною швидкістю безпосередньо до вашого місця розташування. Тобто чекання на одну годину вдвічі менше, ніж очікування на 30 хвилин.

— Rasmus Bååth
джерело

Попередження: L0 не призводить до режиму безперервних проблем ....

— Сіань

Гм, так, я знаю, що сказати режим L0 -> трохи неохайно.

— Rasmus Bååth

Дивлячись на закон зворотного квадрата, якщо у вас розміщено кілька джерел світла, так що будь-яка точка в просторі, яку ми виберемо, отримає незначне світло від усіх, крім найближчого джерела, використання втрати L2 було б рівнозначним бажанню мінімізувати, скажімо, кількість секунд на отриманий просвіт. Я не можу придумати, чому ти хотів би це зробити, а не максимізувати просвітки в секунду.

— Випадковий статистик

L2 - "легко". Це те, що ви отримуєте за замовчуванням, якщо ви використовуєте стандартні матричні методи, такі як лінійна регресія, SVD і т.д. Так само простіше отримати точну відповідь, використовуючи втрату L2 за допомогою багатьох більш фантазійних методів, таких як Гауссові процеси, ніж отримати точну відповідь, використовуючи інші функції втрат.
Так само ви можете отримати втрату L2 саме за допомогою наближення Тейлора другого порядку, що не стосується більшості функцій втрат (наприклад, перехресна ентропія,). Це полегшує оптимізацію методами другого порядку, як метод Ньютона. Багато методів для роботи з іншими функціями втрат все ще використовують методи втрати L2 під кришкою з тієї ж причини (наприклад, ітеративно переосмислені найменші квадрати, інтегровані вкладені наближення Лапласа).
L2 тісно пов'язаний з гауссовими розподілами, а теорема про граничну границю робить розподіли Гаусса загальними. Якщо ваш процес генерації даних є (умовно) гауссовим, то L2 - це найефективніший оцінювач.
Втрати L2 добре розкладаються через закон тотальної дисперсії. Це робить певні графічні моделі з прихованими змінними особливо зручними.
L2 карає страшні прогнози непропорційно. Це може бути добре чи погано, але це часто досить розумно. Годинне очікування може бути в чотири рази гіршим, ніж 30-хвилинне очікування, в середньому, якщо це змусить багато людей пропустити свої побачення.

— Девід Дж. Харріс
джерело

Хм, те, про що я пішов, більше нагадувало ситуацію прийняття рішення, коли L2 був би розумною функцією втрат. Як сценарій, подібний до двох прикладів у моєму запитанні, але для L2.

— Rasmus Bååth

@ RasmusBååth Я не впевнений в аргументі точно розподілу збитків (окрім його зв’язку з процесами генерування даних Гаусса в №3), але №5 є аргументом для прискорення функцій втрат. До другого порядку будь-яка така функція буде відповідати втратам L2.

— Девід Дж. Харріс

@ DavidJ.Harris Власне, №5 неправильно. Що б ви зробили в такому випадку, це використовувати втрату L1 abs (xy), щоб мінімізувати фрустрацію = час². Використання (xy) ² втрат на час, як ви запропонували, насправді дасть вам неоптимальний результат.

— Íhor Mé

@ ÍhorMé Я думаю, що я маю вас нерозуміти. Здається, ви говорите, що найкращий спосіб мінімізувати помилку в квадраті - це мінімізувати абсолютні втрати, а не норму L2.

— Девід Дж. Харріс

@ DavidJ.Harris Так, я намагався зауважити, що це проблема мінімізації «поганості» (= розріз часу), а не витраченого часу на очікування, по суті, але я думаю, що спочатку я неправильно зрозумів експеримент. Тепер, коли я перечитую це, L2 - це законний спосіб перейти від мінімізації різниці у часі до мінімізації «поганості». Хоча, я мушу сказати, програмісту найкраще спочатку правильно визначити, яку «поганість» він хоче мінімізувати, потім отримати це значення, а потім мінімізувати через L1. У цьому випадку ви отримуєте (різниця в часі) ², а потім мінімізуйте втрати L1. Ідіть з L2 лише тоді, коли знаєте, що робите.

— Íhor Mé