Це пояснення - це підсумок муратої та коментарів Іва на відповідь DW. Хоча вона базується на обчисленні, я вважав це простою і зрозумілою.
Якщо припустити, що у нас є і хочемо отримати нову оцінку на їх основі. Найменша втрата отримується, коли ми знаходимо яка робить похідну втрати до нуля. β βy1,y2,...ykββ
L1 втрати
∂L1
L1=1k∑i=1k|yi−β|
∂L1∂β= - 1к∑i =1кс gn (уi-β)
с gп ( уi-β) дорівнює 1, коли , -1, коли . Похідна дорівнює 0, коли серед є однакова кількість позитивних і негативних доданків , що означає, що має бути медіаною .
уi> βуi< βуi- ββуi
Втрати L2
∂L2
L 2 = 1к∑i = 1к( уi- β)2
∂L2∂L2∂β= - 2к∑i = 1к( уi-β)
Отже, щоб мінімізувати втрати L2,
βмає бути середнім
yi.
∂L2∂β= 0 → β= 1к∑i = 1куi
βуi