Які переваги лінійної регресії перед квантильною регресією?


15

Модель лінійної регресії створює купу припущень, що квантильна регресія не має, і, якщо допущення лінійної регресії виконуються, то моя інтуїція (і деякий дуже обмежений досвід) полягає в тому, що середня регресія дала б майже однакові результати, як лінійна регресія.

Отже, які переваги має лінійна регресія? Це, звичайно, звичніше, але крім цього?


3
До «більш знайомих» я додав би «інтерпретаційність» та «стабільність», але для мене однією з переваг лінійної регресії є те, що вона говорить вам про середнє значення і наскільки добре це значення представляє вибіркову сукупність (залишки дуже інформативні) . Лінійна регресія має таке велике значення, коли її припущення виконуються, і хороше значення, коли вони не виконуються.
JustGettinStarted

5
Я заперечую, що одне важливе питання обговорювалось у цих двох потоках : stats.stackexchange.com/questions/153348/… та stats.stackexchange.com/questions/146077/… - ефективність та, можливо, навіть оптимальність при певних припущення
Крістоф Хенк

1
В якості подальшого, але незначного моменту, можливо, можна додати доступність явних рішень закритої форми, які не доступні, скажімо, LAD, що може зробити такі методи менш привабливими для практикуючих.
Крістоф Ганк

1
Відповідь могла бути подібною до порівняння простого випадку оцінювання одного параметра сукупності, а потім показує, що найменші помилки в квадраті мають кращі результати з помилками Гаусса, а найменші абсолютні залишки (з використанням припущень) краще для різних типів помилок. Але далі, це питання стосується більш складних лінійних моделей, і проблема починає бути більш складною та широкою. Інтуїція простої задачі (оцінка єдиного середнього / медіани) працює для більшої моделі, але на скільки її слід відпрацювати? І як порівнювати, стійкість до переживаючих, розподіл, обчислення?
Секст

2
У моєму випадку я виявив кількісну регресію набагато приємніше пояснювати нетехнічним людям, коли змінна відповідь перекошена (наприклад, витрати клієнта), а введення кроку перетворення / функції зв'язку затьмарює весь аналіз. У цьому сенсі я заперечую твердження, що " середня регресія дала б майже однакові результати, як лінійна регресія ", як дещо надмірне спрощення; це не відбувається, особливо при роботі з потенційно перекошеними змінними відповіді.
usεr11852 повідомляє

Відповіді:


10

Дуже часто говориться, що мінімізація залишків з найменшим квадратом є кращою перед мінімізацією абсолютних залишків через причину, що вона обчислювально простіша . Але, це може також бути краще за інших причин. А саме, якщо припущення є істинними (а це не так вже й рідко), то це забезпечує рішення, яке (в середньому) є більш точним.

Максимальна ймовірність

Регресія найменших квадратів і квантильна регресія (коли вони виконуються мінімізацією абсолютних залишків) можуть розглядатися як максимізація функції ймовірності для розподілених помилок Гаусса / Лапласа, і в цьому сенсі дуже пов'язані.

  • Гауссова розподіл:

    f(x)=12πσ2e(xμ)22σ2

    при цьому ймовірність журналу буде максимальною при мінімізації суми залишків у квадраті

    logL(x)=n2log(2π)nlog(σ)12σ2i=1n(xiμ)2sum of squared residuals

  • Розподіл Лапласа:

    f(x)=12be|xμ|b

    при цьому ймовірність журналу буде максимальною при мінімізації суми абсолютних залишків

    logL(x)=nlog(2)nlog(b)1bi=1n|xiμ|sum of absolute residuals

Примітка: розподіл Лапласа і сума абсолютних залишків стосується медіани, але його можна узагальнити до інших квантилів, надавши різну вагу негативним і позитивним залишкам.

Відомий розподіл помилок

Коли ми знаємо розподіл помилок (коли припущення, ймовірно, вірні), має сенс обрати пов'язану функцію ймовірності. Мінімізація цієї функції є більш оптимальною.

μ

Отже, коли помилки розподіляються нормально, то середнє значення вибірки є кращим оцінком медіани розподілу, ніж медіани вибірки . Регресія найменших квадратів є більш оптимальним оцінкою квантів. Це краще, ніж використовувати найменшу суму абсолютних залишків.

Оскільки так багато проблем стосується нормальних розподілених помилок, використання методу найменших квадратів є дуже популярним. Для роботи з іншими типами розподілів можна використовувати Узагальнену лінійну модель . І метод ітеративних найменших квадратів, який можна використовувати для розв’язання ГЛМ, також працює для розподілу Лапласа (тобто для абсолютних відхилень ), що еквівалентно знаходженню медіани (або в узагальненій версії інших квантилів).

Невідомий розподіл помилок

Міцність

Середня або інші кванти мають перевагу в тому, що вони дуже міцні щодо типу розподілу. Фактичні значення не мають великого значення, а квантори дбають лише про порядок. Тож незалежно від розподілу, мінімізація абсолютних залишків (що еквівалентно пошуку квантилів) працює дуже добре.

Питання тут стає складним і широким, і це залежить від того, який тип знань ми маємо чи не маємо про функцію розподілу. Наприклад, розподіл може бути приблизно нормальним, але лише з деякими додатковими видатками. З цим можна вирішити, видаливши зовнішні значення. Це вилучення крайніх значень навіть працює в оцінці параметра розташування розподілу Коші, де усечене середнє може бути кращим оцінкою, ніж медіана. Тож не тільки для ідеальної ситуації, коли припущення мають місце, але й для деяких менш ідеальних застосувань (наприклад, додаткові виграші) можуть бути хороші надійні методи, які все ще використовують певну форму суми квадратних залишків замість суми абсолютних залишків.

Я думаю, що регресія із усіченими залишками може бути обчислювально набагато складнішою. Тож насправді це може бути кількісна регресія, яка є типом регресії, яка виконується через причину, що вона обчислювально простіша (не простіша, ніж звичайні найменші квадрати, але простіша від усічених найменших квадратів).

Упереджений / неупереджений

Інше питання є упередженим порівняно з неупередженими оцінками. У вищесказаному я описав оцінку максимальної ймовірності для середнього, тобто рішення з найменшими квадратами, як хороший або кращий оцінювач, оскільки він часто має найменшу дисперсію від усіх неупереджених оцінювачів (коли помилки нормально розподілені). Але упереджені оцінки можуть бути кращими (менша очікувана сума помилки у квадраті).

Це робить питання знову широким і складним. Існує багато різних оцінювачів та безліч різних ситуацій для їх застосування. Використання адаптованої суми втрати в квадраті функції залишків часто добре допомагає зменшити помилку (наприклад, всі види методів регуляризації), але, можливо, не потрібно буде працювати добре у всіх випадках. Інтуїтивно не дивно уявити, що, оскільки сума втрати квадратних залишків функціонує часто добре для всіх неупереджених оцінювачів, оптимальні зміщені оцінювачі, ймовірно, є чимось близьким до суми втрати в квадраті функції залишків.


Коли ми знаємо розподіл помилок, має сенс обрати пов'язану функцію ймовірності. Мінімізація цієї функції є більш оптимальною. Не сказати, що це неправильно, але, мабуть, слід кваліфікувати. Звичайно, це ще раз стосується мого питання (на яке ви відповіли) щодо оптимальних оцінок за різних функцій втрат.
Річард Харді

Це найкращий спосіб, оскільки він має найменшу дисперсію вибірки. Варіантність, як правило, не є розумною функцією втрат, оскільки вона нехтує зміщенням; розумний аналог може очікувати квадратичної помилки (також середньої квадратичної помилки), яка враховує як дисперсію, так і зміщення. Регресія найменших квадратів є більш оптимальним оцінкою квантів. Медіана - так, але інші? А якщо так, то чому? У будь-якому випадку, ваша дуже приємна відповідь!
Річард Харді

1
@RichardHardy ця тема настільки широка. Справді, помилка = дисперсія + зміщення. Я припускав, що зміщення середньої вибірки є таким же, як медіана вибірки (або більш загальне: найменша сума залишків у квадраті та найменша сума абсолютних залишків мають однакові зміщення). Це вірно, враховуючи різні розподіли помилок (наприклад, симетричні розподіли помилок), але справді питання стають складнішими для інших випадків. (справа в основному полягала в тому, що помилки часто нормально розподіляються, і це робить сприятливим регресію квадратів)
Секст

1
Те саме (складність питання) справедливо, коли ми не розглядаємо медіану, а натомість якийсь інший квантил. Що стосується звичайних розподілених помилок, я вважаю, що MLE дає найкращий результат за будь-який квантил, але я згоден, що це інтуїція. Знову ж таки проблема дуже широка (залежність від кількості вибірок, типу розподілу помилок та визначеності щодо неї тощо тощо).
Секст

1
зламані годинник підійдуть саме два рази в день, я не став би називати ОМП зламаними годинами. Звичайно, коли ви добре знаєте проблему, тоді ви можете ввести певну дисперсію, зменшуючи ухил, щоб поліпшити загальну помилку. Це не обов'язково переходити до іншого (квантильного) типу регресії, ви також можете просто покласти трохи варення або меду на найменші квадрати хліба і масла. Якщо ви хочете порівнювати MLE зі зламаним годинником, то це, мабуть, годинник, який стоїть нерухомо в той час, який ми максимально використовуємо.
Секст

2

Лінійна регресія (LR) зводиться до мінімальної оптимізації квадратів при обчисленні її коефіцієнтів. Це передбачає симетрію у відхиленнях від регресійної моделі. Хороше пояснення кількісної регресії (QR) знаходиться на https://data.library.virginia.edu/getting-started-with-quantile-regression/ .

Якщо припущення LR (необхідні для висновку: p-значення, довірчі інтервали тощо) задовольняються прогнозами QR і LR, будуть аналогічні. Але якщо припущення сильно порушені, ваш стандартний висновок LR буде неправильним. Таким чином, 0,5 квантильна (середня) регресія представляє перевагу перед LR. Це також дає більшу гнучкість у наданні регресії для інших квантилів. Еквівалентом для лінійних моделей було б довірче обмеження, обчислене з LR (хоча це було б неправильно, якщо iid сильно порушений).

То в чому ж перевага LR? Звичайно, простіше обчислити, але якщо набір даних має розумні розміри, це може бути не дуже помітно. Але що ще важливіше, припущення висновку LR надають інформацію, яка знижує невизначеність. Як результат, довірчі інтервали LR для прогнозування, як правило, будуть більш вузькими. Отже, якщо існує сильна теоретична підтримка припущень, більш вузькі інтервали довіри можуть бути перевагою.


2

E(Y|X)YXE(Y|X)=Xββ

Квантильна регресія може бути використана для оцінки будь-якого квантиля умовного розподілу, включаючи медіану. Це дає потенційно набагато більше інформації, ніж середнє значення щодо умовного розподілу. Якщо умовний розподіл не симетричний або хвости, можливо, товсті (наприклад, аналіз ризику), квантильна регресія є корисною НАДЕЗ, якщо всі припущення про лінійну регресію виконуються.

Звичайно, чисельніше інтенсивніше проводити кількісну оцінку відносно лінійної регресії, але вона, як правило, набагато стійкіша (наприклад, так як медіана є більш стійкою, ніж середня для людей, що вижили). Крім того, це доцільно, коли лінійної регресії немає - наприклад, для цензурованих даних. Висновок може бути складнішим, оскільки пряме оцінювання дисперсійно-коваріаційної матриці може бути важким або обчислювально дорогим. У цих випадках можна завантажувати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.