Чи мінімізація помилки у квадраті еквівалентна мінімізації абсолютної помилки? Чому квадратна помилка популярніша за останню?


39

Коли ми проводимо лінійну регресію щоб помістити купу точок даних , класичний підхід мінімізує помилку у квадраті. Мене давно спантеличено питанням, що мінімізація помилки в квадраті дасть такий самий результат, як мінімізація абсолютної помилки ? Якщо ні, то чому мінімізувати помилку в квадраті краще? Чи є якась інша причина, крім "об'єктивна функція диференційована"?( х 1 , у 1 ) , ( х 2 , у 2 ) , . . . , ( x n , y n )y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

Похибка квадрата також широко використовується для оцінки продуктивності моделі, але абсолютна помилка є менш популярною. Чому квадратична помилка використовується частіше, ніж абсолютна помилка? Якщо прийом похідних не бере участь, обчислення абсолютної помилки настільки ж просто, як і обчислення помилки у квадраті, то чому помилка квадрата настільки поширена ? Чи є якась унікальна перевага, яка може пояснити його поширеність?

Дякую.


Завжди є якась проблема оптимізації, і ви хочете мати можливість обчислити градієнти, щоб знайти мінімум / максимум.
Владислав Довгалець

11
для x ( - 1 , 1 ) і x 2 > | х | якщо | х | > 1 . Таким чином, квадратна помилка карає великих помилок більше, ніж абсолютна помилка, і більш прощає невеликі помилки, ніж абсолютна помилка. Це добре узгоджується з тим, що багато хто думає, що це відповідний спосіб робити. x2<|x|x(1,1)x2>|x||x|>1
Діліп Сарват

Відповіді:


47

Мінімізація квадратних помилок (MSE), безумовно, не те саме, що мінімізувати абсолютні відхилення (MAD) помилок. MSE забезпечує середню відповідь обумовлену на x , тоді як MAD забезпечує серединну відповідь y, обумовлену на x .yxyx

Історично Лаплас спочатку розглядав максимальну спостережувану помилку як міру правильності моделі. Незабаром він перейшов до розгляду питання про MAD . Через його нездатність точно вирішити обидві ситуації, він незабаром розглядав диференційну MSE. Сам і Гаусс (здавалося б одночасно) вивели звичайні рівняння, рішення цієї проблеми закритої форми. В даний час вирішити MAD досить легко за допомогою лінійного програмування. Як відомо, однак лінійне програмування не має рішення закритої форми.

З точки зору оптимізації, обидва відповідають опуклим функціям. Однак MSE є диференційованим, таким чином, дозволяючи методи на основі градієнтів, набагато ефективніші, ніж їх недиференційований аналог. MAD не диференціюється при .x=0

Наступна теоретична причина полягає в тому, що в байєсівській обстановці при прийнятті рівномірних пріорів параметрів моделі МСЕ дає нормальні розподілені помилки, що було прийнято як доказ правильності методу. Теоретикам подобається нормальний розподіл, тому що вони вважали це емпіричним фактом, а експериментам подобається, тому що вони вважають це теоретичним результатом.

Кінцевою причиною того, чому МСЕ, можливо, було прийнято широке визнання - це те, що воно засноване на евклідовій відстані (насправді це вирішення проблеми проекції на простір евклідового банана), що є надзвичайно інтуїтивно зрозумілим з огляду на нашу геометричну реальність.


1
(+1) для посилання на Лаплас!
Сіань

2
"Теоретикам подобається нормальний розподіл, тому що вони вважали це емпіричним фактом, а експериментам подобається, тому що вони вважають це теоретичним результатом". -- Я це люблю. Але чи немає також прямих фізичних застосувань для розподілу Гаусса? А ще є відомості про максимальне поширення ентропії
shadowtalker

8
@ssdecontrol Я думаю, що епіграма пов’язана з Анрі Пуанкаре трохи більше ста років тому. Tout le monde y croit cependant, я відключаю un jour M. Lippmann, car les expérimentateurs s'imaginent que c'est un théorème de mathématiques, et les mathématiciens que c'est un fait expérimental. "Усі впевнені в цьому [що помилки зазвичай розподіляються], містер Ліппман сказав мені одного дня, оскільки експерименталісти вважають, що це математична теорема, а математики - це експериментально визначений факт". від Calcul des Probabilités (2-е видання, 1912), с. 171
Діліп Сарват

1
Ось математична відповідь. Якщо у нас є матриця даних незалежних змінних X і матриця стовпців Y, то якщо є матриця b зі властивістю Xb = Y, у нас є soln. Зазвичай ми не можемо, і ми хочемо, щоб B було "найближчим" до точного рішення. Щодо математики це "легко" вирішити. Це проекція Y на простір стовпця X. Поняття проекції і перпендикуляр тощо, залежать від метрики. Звичайна евклідова метрика L2 - це те, до чого ми звикли, і вона дає найменші квадрати. Мінімізуюча властивість mse - це підтвердження того, що у нас є проекція.
агіненський

1
Я вважав, що пріоритетна розбіжність була між Гаусом та Легендром, Легенда передувала Гаусу у виданні, але Гаус передував Легендеру в неофіційній кореспонденції. Я також (невиразно) знаю, що доказ Лапласа вважається вищим. Будь-яка посилання на них?
PatrickT

31

В якості альтернативного пояснення розглянемо таку інтуїцію:

Зводячи до мінімуму помилку, ми повинні вирішити, як покарати ці помилки. Дійсно, найпростішим підходом до покарання помилок було б використання linearly proportionalфункції штрафу. При такій функції кожному відхиленню від середнього дається пропорційна відповідна похибка. Тому вдвічі більше від середнього значення призвело б до подвійного штрафу.

Більш поширеним підходом є розгляд squared proportionalзалежності між відхиленнями від середнього та відповідного штрафу. Це дозволить переконатися, що чим далі ви знаходитесь далеко від середнього значення, тим пропорційно більше ви будете штрафовані. Використовуючи цю функцію штрафних санкцій, люди, що перебувають на відстані від середнього значення, вважаються пропорційно більш інформативними, ніж спостереження поблизу середнього.

Для наочності цього ви можете просто побудувати функції штрафних санкцій:

Порівняння штрафних функцій MAD ​​та MSE

Тепер, особливо при розгляді оцінки регресій (наприклад, OLS), різні функції штрафних санкцій дадуть різні результати. Використовуючи функцію linearly proportionalштрафу, регресія присвоює меншій вазі, ніж люди, що користуються squared proportionalштрафом, ніж при використанні функції штрафу. Отже, Середня абсолютна відхилення (MAD), як відомо, є більш надійною оцінкою. Загалом, саме так випливає, що надійний оцінювач добре підходить для більшості точок даних, але "ігнорує" людей, які не працюють. Найменше квадратики, що підходять, порівняно, тягнуться більше в сторону вибуху. Ось візуалізація для порівняння:

Порівняння OLS та надійного оцінювача

Зараз, хоча OLS є значною мірою стандартною, різні функції штрафу, безумовно, також використовуються. Як приклад, ви можете ознайомитись з функцією міцного обладнання Matlab, яка дозволяє вибрати іншу функцію штрафу (також звану «вага») за ваш регрес. До штрафних функцій належать andrews, bisquare, cauch, fair, huber, logistic, ols, talwar та welsch. Їх відповідні вирази можна знайти і на веб-сайті.

Я сподіваюся, що це допоможе вам отримати трохи більше інтуїції щодо штрафних функцій :)

Оновлення

Якщо у вас є Matlab, я можу порекомендувати пограти з Robustdemo Matlab , який був побудований спеціально для порівняння звичайних найменших квадратів з стійкою регресією:

robustdemo

Демонстрація дозволяє перетягувати окремі точки і відразу бачити вплив як на звичайні найменші квадрати, так і на міцну регресію (що ідеально підходить для навчальних цілей!).


3

Як пояснила інша відповідь, мінімізація помилки у квадраті не є такою ж, як мінімізація абсолютної помилки.

Причина мінімізації квадратичної помилки є кращою, оскільки вона краще запобігає великим помилкам.

Скажіть, що відділ нарахування заробітної плати вашого працівника випадково виплачує кожному із загальної кількості десяти співробітників на 50 доларів менше, ніж потрібно. Це абсолютна помилка 500 доларів. Це також абсолютна помилка 500 доларів, якщо відділ платить лише одному працівнику на 500 доларів менше. Але що стосується помилки в квадраті, це 25000 проти 250000.

Не завжди краще використовувати помилку квадрата. Якщо у вас є набір даних із екстремальним зовнішнім виглядом через помилку отримання даних, мінімізація помилки у квадраті призведе до придатності до екстремальної зовнішності набагато більше, ніж до мінімізації абсолютної помилки. При цьому, як правило, краще використовувати помилку квадрата.


4
Причина мінімізації квадратичної помилки є кращою, оскільки вона краще запобігає великим помилкам. - то чому б не порізати кубиками?
Даніель Ервікер

@DanielEarwicker Cubed робить помилки в неправильному напрямку віднімаючими. Отже, це повинно бути абсолютною кубічною помилкою або дотримуватися рівних повноважень. Не існує дійсно «доброї» причини, що квадрат використовується замість вищих сил (або, справді, неполіноміальні штрафні функції). Це просто легко підрахувати, легко мінімізувати і виконувати роботу.
Atsby

1
Звичайно, я мав би сказати будь-яку вищу рівну силу! :)
Daniel Earwicker

Наразі це не має жодних результатів (на даний момент), але хіба це не відповідає тому, що відповідь на те, що (на даний момент) має 15 голосів (тобто більші результати мають більші)? Це не отримання голосів через те, що це неправильно, або через те, що він пропускає якусь ключову інформацію? Або тому, що в ньому немає гарних графіків? ;-)
Даррен Кук

@DarrenCook Я підозрюю, що "сучасний" підхід до статистики віддає перевагу MAD над OLS, і припускаючи, що помилка в квадраті "зазвичай", краще заробила мені кілька відгуків.
Atsby

2

Теоретично ви могли використовувати будь-яку функцію втрат. Функції абсолютних і квадратних втрат, як виявляється, є найпопулярнішими та найінтуїтивнішими функціями втрат. Відповідно до цієї статті у Вікіпедії ,

Загальний приклад включає оцінку "місця розташування". За типових статистичних припущень середнє або середнє значення - це статистика для визначення місця розташування, яка мінімізує очікувані збитки, пережиті за допомогою функції втрат у квадраті, в той час як медіана - це оцінювач, який мінімізує очікувані втрати, пережиті за функцією втрат абсолютної різниці. Але все-таки різні оцінки були б оптимальними за інших, менш поширених обставин.

Як також пояснено у статті вікіпедії, вибір функцій втрат залежить від того, як ви оцінюєте відхилення від цільового об’єкта. Якщо всі відхилення для вас однаково погані, незалежно від їх ознаки, ви можете використовувати функцію абсолютних втрат. Якщо відхилення для вас стають гіршими, чим далі ви знаходитесь від оптимуму, і вам не байдуже, чи відхилення є позитивним чи негативним, то функція втрати у квадраті - це ваш найпростіший вибір. Але якщо жодне з перерахованих вище визначень збитків не відповідає вашій проблемі, оскільки, наприклад, невеликі відхилення для вас гірші, ніж великі відхилення, ви можете вибрати іншу функцію втрат і спробувати вирішити проблему мінімізації. Однак статистичні властивості вашого рішення можуть бути важко оцінити.


Невелика деталь: "Якщо всі відхилення для вас однаково погані незалежно від їх ознаки ..": Функція MAD штрафує помилки лінійно-пропорційно. Тому помилки не є «однаково поганими», а «пропорційно поганими», оскільки двічі помилка отримує вдвічі більше штрафу.
Жан-Пол

@ Жан-Пол: Ви праві. Я мав на увазі саме так. Що я хотів сказати з "однаково поганим", це те, що градієнт MAD є постійним, тоді як градієнт для MSE росте лінійно з помилкою. Отже, якщо різниця між двома помилками є постійною, незалежно від того, наскільки ви далеко від оптимального ви знаходитесь, тоді як те саме не стосується MSE. Я сподіваюся, що це робить трохи зрозумілішим те, що я хочу сказати.
kristjan

-1

Короткі відповіді

  1. ніпе
  2. середнє значення має більш цікаві статистичні властивості, ніж медіана

10
Було б чудово, якби ви могли кваліфікувати "більш цікаві статистичні властивості".
Момо
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.