Дуже часто говориться, що мінімізація залишків з найменшим квадратом є кращою перед мінімізацією абсолютних залишків через причину, що вона обчислювально простіша . Але, це може також бути краще за інших причин. А саме, якщо припущення є істинними (а це не так вже й рідко), то це забезпечує рішення, яке (в середньому) є більш точним.
Максимальна ймовірність
Регресія найменших квадратів і квантильна регресія (коли вони виконуються мінімізацією абсолютних залишків) можуть розглядатися як максимізація функції ймовірності для розподілених помилок Гаусса / Лапласа, і в цьому сенсі дуже пов'язані.
Гауссова розподіл:
f(x)=12πσ2−−−−√e−(x−μ)22σ2
при цьому ймовірність журналу буде максимальною при мінімізації суми залишків у квадраті
logL(x)=−n2log(2π)−nlog(σ)−12σ2∑i=1n(xi−μ)2sum of squared residuals
Розподіл Лапласа:
f(x)=12be−|x−μ|b
при цьому ймовірність журналу буде максимальною при мінімізації суми абсолютних залишків
logL(x)=−nlog(2)−nlog(b)−1b∑i=1n|xi−μ|sum of absolute residuals
Примітка: розподіл Лапласа і сума абсолютних залишків стосується медіани, але його можна узагальнити до інших квантилів, надавши різну вагу негативним і позитивним залишкам.
Відомий розподіл помилок
Коли ми знаємо розподіл помилок (коли припущення, ймовірно, вірні), має сенс обрати пов'язану функцію ймовірності. Мінімізація цієї функції є більш оптимальною.
μ
Отже, коли помилки розподіляються нормально, то середнє значення вибірки є кращим оцінком медіани розподілу, ніж медіани вибірки . Регресія найменших квадратів є більш оптимальним оцінкою квантів. Це краще, ніж використовувати найменшу суму абсолютних залишків.
Оскільки так багато проблем стосується нормальних розподілених помилок, використання методу найменших квадратів є дуже популярним. Для роботи з іншими типами розподілів можна використовувати Узагальнену лінійну модель . І метод ітеративних найменших квадратів, який можна використовувати для розв’язання ГЛМ, також працює для розподілу Лапласа (тобто для абсолютних відхилень ), що еквівалентно знаходженню медіани (або в узагальненій версії інших квантилів).
Невідомий розподіл помилок
Міцність
Середня або інші кванти мають перевагу в тому, що вони дуже міцні щодо типу розподілу. Фактичні значення не мають великого значення, а квантори дбають лише про порядок. Тож незалежно від розподілу, мінімізація абсолютних залишків (що еквівалентно пошуку квантилів) працює дуже добре.
Питання тут стає складним і широким, і це залежить від того, який тип знань ми маємо чи не маємо про функцію розподілу. Наприклад, розподіл може бути приблизно нормальним, але лише з деякими додатковими видатками. З цим можна вирішити, видаливши зовнішні значення. Це вилучення крайніх значень навіть працює в оцінці параметра розташування розподілу Коші, де усечене середнє може бути кращим оцінкою, ніж медіана. Тож не тільки для ідеальної ситуації, коли припущення мають місце, але й для деяких менш ідеальних застосувань (наприклад, додаткові виграші) можуть бути хороші надійні методи, які все ще використовують певну форму суми квадратних залишків замість суми абсолютних залишків.
Я думаю, що регресія із усіченими залишками може бути обчислювально набагато складнішою. Тож насправді це може бути кількісна регресія, яка є типом регресії, яка виконується через причину, що вона обчислювально простіша (не простіша, ніж звичайні найменші квадрати, але простіша від усічених найменших квадратів).
Упереджений / неупереджений
Інше питання є упередженим порівняно з неупередженими оцінками. У вищесказаному я описав оцінку максимальної ймовірності для середнього, тобто рішення з найменшими квадратами, як хороший або кращий оцінювач, оскільки він часто має найменшу дисперсію від усіх неупереджених оцінювачів (коли помилки нормально розподілені). Але упереджені оцінки можуть бути кращими (менша очікувана сума помилки у квадраті).
Це робить питання знову широким і складним. Існує багато різних оцінювачів та безліч різних ситуацій для їх застосування. Використання адаптованої суми втрати в квадраті функції залишків часто добре допомагає зменшити помилку (наприклад, всі види методів регуляризації), але, можливо, не потрібно буде працювати добре у всіх випадках. Інтуїтивно не дивно уявити, що, оскільки сума втрати квадратних залишків функціонує часто добре для всіх неупереджених оцінювачів, оптимальні зміщені оцінювачі, ймовірно, є чимось близьким до суми втрати в квадраті функції залишків.