Оцінка регресії L1 середня, тоді як оцінки регресії L2 означають?


24

Тож мені було задано питання, за якими центральними заходами L1 (тобто ласо) та L2 (тобто регресія хребта) оцінювали. Відповідь L1 = середня, а L2 = середня. Чи існує якийсь тип інтуїтивного міркування на це? Або це потрібно визначати алгебраїчно? Якщо так, то як мені це робити?


4
Під L1 / L2 ви посилаєтесь на цільову функцію чи обмеження? Якщо об'єктивна функція, то так, помилка L1 мінімізована за умовної медіани, а L2 - умовна середня. Якщо обмеження (на яке посилається хребет / ласо), то це неправильний спосіб думати про це. Їх "центральні заходи" все ще спрямовані на умовне середнє значення, але з різними покараннями на . β
muratoa

Відповіді:


24

Існує просте геометричне пояснення того, чому функція втрат L1 дає медіану.

Нагадаємо, що ми працюємо в одному вимірі, тому уявіть, що числовий рядок поширюється по горизонталі. Накресліть кожну з точок даних у рядку цифр. Покладіть палець кудись на лінію; ваш палець буде вашою поточною оцінкою кандидата.

Припустимо, ви перемістите палець трохи вправо, скажімо одиниці праворуч. Що відбувається із загальною втратою? Ну, якщо ваш палець знаходився між двома точками даних, і ви переміщуєте його через точку даних, ви збільшили загальну втрату на для кожної точки даних ліворуч від пальця та зменшили її на для кожного даних вкажіть праворуч від пальця. Отже, якщо праворуч від пальця більше точок даних, ніж ліворуч, переміщення пальця праворуч зменшує загальну втрату. Іншими словами, якщо більше половини точок даних знаходиться праворуч від вашого пальця, слід перемістити палець праворуч.δ δδδδ

Це призводить до того, що ви рухаєте пальцем до місця, де половина точок даних знаходиться на цьому місці, а половина - справа. Ця пляма є медіаною.

Це L1 і медіана. На жаль, у мене немає подібного пояснення "вся інтуїція, не алгебра" для L2 та середнього значення.


7
Якщо ми говоримо про просту оцінку балів, то це пряме обчислення. ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyi
muratoa

3
@muratoa, так, я знаю похідне обчислення, але питання задає конкретно пояснення, яке зосереджено на інтуїції та уникає алгебри. Я б припустив, що запитуючий питання вже знає виведення обчислення, але шукає щось, що забезпечує більше інтуїції.
DW

Я подумав, що згадана регресія ОП свідчить про те, що він говорить про оцінку y, задану x, яка є середньою умовою з використанням найменших квадратів та умовної медіани для середньої абсолютної помилки. Ті ж пояснення повинні працювати, але проблема дещо інша. Пояснення обчислення середнього значення досить чітке та зрозуміле. Можливо, пояснення середнього значення може бути дано аналогічно DW для медіани. Вибірковий середній розмір - це об'єктивна оцінка середнього значення населення.
Майкл Р. Черник

По мірі відхилення оцінки від вибірки середня квадратична помилка змінюється через збільшення зміщення. Середня квадратна похибка фактично збільшується на d коли оцінка додає d до середнього зразка як кандидатська оцінка. 2
Майкл Р. Черник

11
Для випадку L1 існує швидка та брудна версія алгебри, наданої муратоа. Зауважте, що за винятком випадків, коли , похідна відwrt є , тобто якщо та якщо . Тож , за винятком випадків, коли є . Похідна зникає, коли серед є однакова кількість позитивних і негативних доданків , що, грубо кажучи, виникає, коли| y i - β | β - s g n ( y i - β ) - 1 β < y i + 1 β > y i dβ=уi|уi-β|β-сгн(уi-β)-1β<уi+1β>уiβ y i y i - β β y iddβ1ni|yiβ|=1nisgn(yiβ)βyiyiββ - медіана . yi
Ів

17

Це пояснення - це підсумок муратої та коментарів Іва на відповідь DW. Хоча вона базується на обчисленні, я вважав це простою і зрозумілою.

Якщо припустити, що у нас є і хочемо отримати нову оцінку на їх основі. Найменша втрата отримується, коли ми знаходимо яка робить похідну втрати до нуля. β βy1,y2,...ykββ

L1 втрати

L1

L1=1кi=1к|уi-β|
L1β=-1кi=1ксгн(уi-β)
сгн(уi-β) дорівнює 1, коли , -1, коли . Похідна дорівнює 0, коли серед є однакова кількість позитивних і негативних доданків , що означає, що має бути медіаною .уi>βуi<βуi-ββуi

Втрати L2

L2

L2=1кi=1к(уi-β)2
L2
L2β=-2кi=1к(уi-β)
Отже, щоб мінімізувати втрати L2,βмає бути середнімyi.
L2β=0β=1кi=1куi

βуi

3

Додаючи до відповіді DW ще більш практичний приклад (і для функції втрати L2):

Уявіть собі маленьке село, яке складається з 4 будинків, розташованих поруч (наприклад, 10 метрів). У 1 кілометрі від них у вас ще один дуже ізольований будинок. Тепер ви приїжджаєте в те місто і хочете десь побудувати свій власний будинок. Ви хочете жити поруч з іншими будинками і дружити з усіма. Розглянемо два альтернативних сценарії:

  1. Ви вирішили опинитися в тому місці, де середня відстань до будь-якого будинку є найменшою (тобто мінімізуючи функцію втрат L1).

    • Якщо ви поставите свій будинок у центрі села, ви знаходитесь приблизно в 10 метрах від 4 будинків і 1 кілометр від одного будинку, що дає вам середню відстань близько 200 метрів (10 + 10 + 10 + 10 + 1000 / 5).
    • Якщо ви розмістите свій будинок за 500 метрів від села, ви знаходитесь приблизно в 500 метрах від 5 будинків, що дає середню відстань у 500 метрів.
    • Якщо ви розмістите свій будинок поруч з ізольованим будинком, ви будете в 1 км від села (4 будинки) і приблизно в 10 метрах від 1 будинку, що дає вам середню відстань близько 800 метрів.

    Тож найнижча середня відстань у 100 метрів досягається, будуючи свій будинок у селі. Більш конкретно, ви побудуєте свій будинок посеред цих 4 будинків, щоб отримати ще кілька метрів середньої відстані. І виявляється, що ця точка є " серединною точкою ", яку б ви отримали аналогічно, використовуючи серединну формулу.

  2. Ви вирішили скористатися демократичним підходом. Ви запитаєте кожного з п’яти майбутніх сусідів про його бажане місце для вашого нового будинку. Вони всі вам подобаються і хочуть, щоб ви жили поруч з ними. Таким чином, всі вони заявляють, що їх кращим місцем буде місце біля власного будинку. Ви берете середнє значення всіх проголосованих місць ваших п’яти сусідів, і результат - "200 метрів від села" (середнє число голосів: 0 + 0 + 0 + 0 + 1000/5 = 200), що є " середня точка " 5 будинків, яку ви отримали б аналогічно, використовуючи формулу середнього значення. І це розташування виявляється точно таким же, що імітує суму квадратних відстаней (тобто функцію втрати L2). Давайте просто зробимо математику, щоб побачити це:
    • У цьому місці сума квадратних відстаней дорівнює: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Якщо ми побудуємо будинок у центрі села, наша сума квадратних відстаней була б: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Якщо ми будуємо будувати будинок у 100 метрах від села (як у 1), сума квадратних відстаней дорівнює: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Якщо ми будуємо будинок в 100 метрах від ізольованого будинку, сума квадратних відстаней дорівнює: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Так, так, цікаво помітити, що, трохи протиінтуїтивно, коли ми мінімізуємо суму відстаней, ми не опиняємось в "середині" в сенсі середнього, а в сенсі медіана. Це є причиною того, що OLS, одна з найпопулярніших регресійних моделей, використовує квадратичні помилки, а не абсолютні помилки.


1

Окрім уже опублікованих відповідей (які мені дуже допомогли!), Є геометричне пояснення зв’язку між нормою L2 і середнім.

Щоб використовувати те саме позначення, що і chefwen , формула втрати L2:

L2=1кi=1к(уi-β)2

βL2к

i=1к(уi-β)2

укуβ=(β,β,...,β)

βуββ1=(1,1,...,1)у1

к=2у=(2,6)1(4,4)

вектор y проектується на бета-версію

к>2

β=proj1у=у1|1|21β=i=1куiк
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.