Регресія, коли залишки OLS зазвичай не розподіляються


43

На цьому веб-сайті є кілька ниток, які обговорюють, як визначити, чи залишки OLS асимптотично нормально розподілені. Ще один спосіб оцінити нормальність залишків з кодом R наведений у цій чудовій відповіді . Це ще одне обговорення практичної різниці між стандартизованими та спостережуваними залишками.

Але, скажімо, залишки точно не розподіляються, як у цьому прикладі . Тут у нас є кілька тисяч спостережень, і явно ми повинні відкинути припущення, що нормально розподіляються-залишки. Один із способів вирішення проблеми - використання певної форми надійного оцінювача, як пояснено у відповіді. Однак я не обмежуюся OLS, і в фактах я хотів би зрозуміти переваги інших GLM або нелінійних методологій.

Який найефективніший спосіб моделювати дані, що порушують норму OLS припущення щодо залишків? Або, принаймні, яким повинен бути перший крок для розробки методології реґресійного аналізу?


5
Існує також декілька ниток, які обговорюють, як нормальність для багатьох цілей неактуальна . Якщо у вас є незалежні спостереження і хоча б помірний розмір вибірки, єдине, що має значення для висновку OLS, - це те, що всі залишки мають однакову дисперсію. Не нормальність. Якщо ви використовуєте надійні / відповідні гетерокедастичності / сендвіч / Huber-Eicker-White оцінки стандартної помилки, тоді навіть вимога постійної дисперсії не потрібна.
гість

@guest Я лише читаю про ефективність тесту на нормальність у цій темі. Регресійний аналіз навіть не позначений.
Роберт Кубрик

Спробуйте це . Ось зовнішнє посилання . А також дивіться глави OLS, наприклад, Stock та Watson, Introduction to Econometrics . Клянусь, я не вигадую цього матеріалу!
гість

@guest Дві ланки стосуються розподілу результатів нормальності, а не залишків.
Роберт Кубрик

1
Ні, вони цього не роблять. Автори часто посилаються на "розподіл Y" як скорочення "розподілу Y, умовного на X". Щоб повернутися до свого початкового питання; якщо у вас є крихітний зразок або масово важкі дані, використання OLS з надійними стандартними помилками є хорошим першим кроком. У цих випадках нормальність - це лише питання, яке не стосується.
гість

Відповіді:


53

Звичайна оцінка найменших квадратів як і раніше є розумною оцінкою за умови ненормативних помилок. Зокрема, у теоремі Гаусса-Маркова зазначається, що оцінка звичайних найменших квадратів є найкращим лінійним неупередженим оцінювачем (BLUE) коефіцієнтів регресії ("Кращий", що означає оптимальний з точки зору мінімізації середньої квадратичної помилки ) до тих пір, поки помилки

(1) мають середній нуль

(2) є неспорідненими

(3) мають постійну дисперсію

Зауважте, тут немає умови нормальності (або навіть будь-якої умови, що помилки є IID ).

Умова нормальності вступає в силу, коли ви намагаєтеся отримати довірчі інтервали та / або . Як згадує @MichaelChernick (+1, btw), ви можете використовувати надійні умовиводи, коли помилки є ненормальними, якщо відхід від нормальності можна обробляти методом - наприклад, (як ми обговорювали в цій темі) Huber -естимулятор може забезпечити надійний висновок, коли істинний розподіл помилок - це суміш між нормальним та довгим хвостим розподілом (як виглядає ваш приклад), але може не бути корисним для інших відхилень від нормальності. Однією цікавою можливістю, на яку натякає Майкл, є завантаження, щоб отримати довірчі інтервали для оцінок OLS і побачити, як це порівнюється з висновками на основі Губера.МpM

Редагувати: Я часто чую, як сказано, що ви можете покластися на теорему про центральний межа, щоб потурбуватися про ненормальні помилки - це не завжди так (я не кажу лише про контрприклади, де теорема не вдається). У прикладі реальних даних, на які посилається ОП, ми маємо великий розмір вибірки, але можна побачити докази розподілу помилок з довгими хвостами - у ситуаціях, коли у вас є тривалі помилки, ви не можете обов'язково покластись на теорему про центральний межа ви приблизно неупереджене висновок для реалістичних кінцевих розмірів вибірки. Наприклад, якщо помилки слідують за -розподілом з ступенем свободи (що явно не більше2.01t2.01 триваліші, ніж помилки, помічені в даних про ОП), оцінки коефіцієнтів зазвичай асимптотично розподіляються, але це потрібно набагато більше часу, ніж це стосується інших короткохвостих розподілів.

Нижче я демонструю за допомогою сирого моделювання, Rщо коли , де , розподіл вибірки є ще досить довгим хвостом, навіть коли розмір вибірки :ε я ~ т 2,01 β 1 п = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

введіть тут опис зображення


2
+1, це дійсно чудовий огляд теми. Я особливо ціную правки. Чи є щось особливе у ? Це здається жахливо конкретним. df=2.01
gung - Відновіть Моніку

2
@gung, спасибі - я вибрав оскільки дисперсія -розподіленої випадкової величини не існує, коли і тому теорема про центральний межа не застосовуватиметься. t d f 2df=2.01tdf2
Макрос

1
@guest, це був надуманий приклад лише для того, щоб показати, що ви не можете сліпо довіряти CLT, коли у вас є довгі помилки. Я погоджуюся, що це надзвичайно для багатьох застосувань, але у прикладі ( stats.stackexchange.com/questions/29636/… ), на який згадується ОП, дані показують дуже тривалий розподіл помилок - форма трохи відрізняється від розподілу, але це не явно менш довгохвоста, і це було результатом реальних даних. Я відредагував свою "Редагувати", щоб виділити це. t2.01
Макрос

2
@Macro, я погоджуюся щодо сліпого використання CLT. Але вимагати нормальних даних для довірчих інтервалів і значень - а не лише вимагати даних з легкими хвостами - є значним перевищенням, і це заохочує, наприклад, зворотне-нормальне перетворення, що просто ускладнює інтерпретацію вихідних даних. Баланс, який потрібно досягти, полягає в тому, щоб відповісти на правильне запитання приблизно проти неправильного; якщо правильний передбачає порівняння чисельності населення, використання OLS - це правильний шлях. p
гість

2
@guest, я ніколи не сперечався проти OLS. Насправді, я думаю, велика частина моєї відповіді полягала в тому, що OLS було розумною справою, незалежно від будь-яких припущень щодо розповсюдження. Я також ніколи не стверджував, що слід дотримуватися суворої норми, щоб робити висновки - те, що я говорю, що коли у вас є тривалі помилки, висновок, заснований на нормальному наближенні, може ввести в оману (я не впевнений, як / якщо це не погоджується на все з тим, що ви говорите), і можна було б радити розглянути альтернативу (наприклад, завантажувальний інструмент). .
Макрос

10

Я думаю, ви хочете переглянути всі властивості залишків.

  1. нормальність
  2. постійна дисперсія
  3. співвідносні з коваріатом.
  4. комбінації перерахованого

Якщо це всього лише 1, і це пов’язано з важкими хвостами або перекосом через один важкий хвіст, стійкий регрес може бути хорошим підходом або, можливо, перетворенням на нормальність. Якщо це незмінна дисперсія, спробуйте перетворення стабілізації дисперсії або спробуйте моделювати дисперсійну функцію. Якщо це просто 3, то це говорить про іншу форму моделі за участю цього коваріату. Яка б не була проблема завантаження векторів чи реідуалів - це завжди варіант.


Для 1, чи можете ви детальніше розібратися про перетворення на нормальність для важких хвостиків?
Роберт Кубрик

2
трансформація колоди або Box-Cox з маленькою лямбдаю скорочують хвости. Це може спрацювати з деяким важким і перекошеним розподілом. Я не знаю, що, якщо якісь перетворення будуть працювати для дуже важких розподілів.
Майкл Черник

3
Приємно відповідає Майкл. Я почав більш регулярно використовувати завантажувальний інструмент для інтервалів довіри, що включає оцінки регресії та загальні контрасти, і це легко зробити в моєму rmsпакеті R. Але, як ви запропонували, пошук трансформації, яка покращує стійкість до дисперсії та інколи покращує нормальність залишків, часто має ряд переваг, навіть якщо ми завантажуємо. Оцінки найменших квадратів за допомогою "неправильної" трансформації можуть бути дуже неефективними та призводити до великих середніх абсолютних та середніх абсолютних помилок у прогнозах. Мені також подобається використовувати напівпараметричні моделі регресії.
Френк Харрелл

2

Мій досвід повністю узгоджується з Майклом Черником. Застосування перетворення даних не лише часом робить помилку моделювання звичайно розподіленою, вона також може виправити гетерокедастичність.

Вибачте, але запропонувати інакше, як збирати божевільний обсяг даних або використовувати менш ефективні надійні методи регресії, на мій погляд, помилково керуючись практикою цієї науки / мистецтва.


1

Макрос (jsut вище) вказав правильну відповідь. Просто деяка точність, бо у мене було те саме питання

Умова нормальності залишків є корисним, коли залишки також є гомоскедастичними. В результаті виходить, що OLS має найменшу дисперсію між усіма оцінювачами (лінійними АБО нелінійними).

Розширені припущення OLS:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n, iid
  3. Великі вигнанці рідкісні
  4. u - гомоскедастичний
  5. u розподіленоN(0,σ2)

якщо 1-5 перевірено, то OLS має найменшу дисперсію між усіма оцінювачами (лінійними АБО нелінійними) .

якщо лише 1–4 перевірені, то за Гауссом-Марковим, OLS - найкращий лінійний (тільки!) оцінювач (СВІЙ).

Джерело: Stock and Watson, Econometrics + мій курс (EPFL, Econometrics)


Немає вимоги до нормальності для звичайних найменших квадратів у y залишках, хоча нормальність надає деякі бажані властивості, наприклад, для аналізу максимальної вірогідності. Останній часто використовується для інформаційного критерію Akaike. Однак це є надмірно обмежувальним, нечасто зустрічається, і більш формальною вимогою є гомоскедастичність, а не нормальність, яка щаслива, оскільки в протилежному випадку мало б користі для звичайних найменших квадратів у.
Карл

@Carl: строго кажучи, немає жодних вимог до OLS, навіть 1 або 2 (попросіть Excel запустити регресію, і це не задасть жодних питань): нормальність - це одна з декількох властивостей, що робить висновок розумним, наприклад прогнозування, впевненість інтервали, тести.
PatrickT

@PatrickT Можливість обчислити щось не надає значення. Наприклад, МНК лінійної регресії про лінії з кошами розподілений -значення помилки підвищує ступінь конфігураційний нахилу і перехоплювати визнати практично нічого, він не повертає вихідну рядок або нахил. Можна назвати це пірровим розрахунком. y
Карл

Треба сказати те саме. Можливо, фразування вашого першого коментаря мене збентежило.
PatrickT

1

У ненормальних умовах іноді вдаються до сильної регресії , особливо з використанням посилань на методи .

Щоб представити контекст ненормативності, може допомогти переглянути припущення для лінійної регресії OLS , які є:

  • Слабка екзогенність . Це по суті означає, що змінні предиктора, x , можуть розглядатися як фіксовані значення, а не як випадкові змінні. Це означає, наприклад, що прогнозні змінні вважаються такими, що не мають помилок, тобто не забруднені помилками вимірювання. Це припущення є тим, яке найчастіше порушується і призводить до помилок, перерахованих за цим списком припущень.
  • Лінійність. Це означає, що середнє значення змінної відгуку - це лінійна комбінація параметрів (коефіцієнтів регресії) та змінних предиктора. Зауважимо, що це припущення набагато менш обмежувальне, ніж може здатися спочатку. Оскільки змінні предиктора розглядаються як фіксовані значення (див. Вище), лінійність насправді є лише обмеженням параметрів. Самі змінні предиктора можуть бути довільно трансформовані, і насправді можуть бути додані кілька копій однієї основної змінної предиктора, кожна з яких трансформується по-різному.
  • Постійна дисперсія (також гомоскедастичність). Це означає, що різні значення змінної відповіді мають однакову дисперсію у своїх помилках, незалежно від значень змінних предиктора. На практиці це припущення є недійсним (тобто помилки є гетероседастичними), якщо змінна відповіді може змінюватися в широкому масштабі. Для того, щоб перевірити наявність різнорідної дисперсії помилок або коли модель залишків порушує модельні припущення про гомоскедастичність (похибка однаково мінлива навколо "найкращої лінії" для всіх точок x), доцільно шукати "ефект роздуву" між залишковою помилкою та прогнозованими значеннями. Це означає, що відбудеться систематична зміна абсолютних або квадратних залишків, коли будуватимуться проти прогнозних змінних. Помилки не будуть рівномірно розподілені по лінії регресії. Гетероседастичність призведе до усереднення розрізнених варіацій навколо точок, щоб отримати єдину дисперсію, яка неточно представляє всі дисперсії лінії. Насправді, залишки виявляються кластеризованими та розподіляються на їх передбачених ділянках для більших та менших значень для точок по лінії лінійної регресії, а середня квадратична помилка для моделі буде неправильною.
  • Незалежність помилок. Це передбачає, що помилки змінних відповідей не співвідносяться між собою. (Фактична статистична незалежність є сильнішою умовою, ніж проста відсутність кореляції, і вона часто не потрібна, хоча її можна використовувати, якщо відомо, що вона дотримується. Це останнє можна вивчити за допомогою кластерного аналізу та корекції взаємодії.) Деякі методи (наприклад, узагальнені найменші квадрати) здатні обробляти корельовані помилки, хоча вони, як правило, вимагають значно більшої кількості даних, за винятком випадків, коли регуляризація використовується для зміщення моделі щодо припущення некорельованих помилок. Байєсова лінійна регресія - це загальний спосіб вирішення цього питання.
  • Статистична залежність між термінами помилки та регресорами відіграє важливу роль у визначенні того, чи має процедура оцінки бажані властивості вибірки, такі як об'єктивна та послідовна.

  • Розташування, або розподіл ймовірності змінних предиктора x має великий вплив на точність оцінок β. Вибірка та проектування експериментів - це високорозвинені підполі статистики, які дають вказівки для збору даних таким чином, щоб досягти точної оцінки β.

Оскільки цей відповідь показує, моделюються Student's- розподілений осі Оу помилок від лінії призводить до МНК лінії регресії з довірчими інтервалами для нахилу і перехоплення , що збільшення розміру як міри свободи ( ) зниження. Для , Student's- є розподіл Коші і довірчі інтервали для нахилу стати .tydfdf=1t(,+)

Довільно посилатися на розподіл Коші відносно залишків у тому сенсі, що, коли генеруючі помилки розподіляються Коші, залишки OLS з хибної лінії через дані будуть ще менш надійними, тобто сміття в --- сміття поза. У цих випадках можна використовувати регресію Тейль-Сена . Theil-Sen, безумовно, більш надійний, ніж OLS для ненормальних залишків, наприклад, розподілена помилка Коші не погіршила б довірчі інтервали, і на відміну від OLS також є двовимірною регресією, однак у випадку біваріанта вона все ще є упередженою. Регресія, що проходить через Баблок, може бути більш неоднозначною, неупередженою, але не стосується негативних регресійних схилів. Він найчастіше використовується для досліджень порівняльних методів. Слід згадати регресію Демінгатут, на відміну від регресій Тіль-Сена та Пасінг-Баблока, це фактичне рішення двоваріантної проблеми, але не вистачає стійкості цих інших регресій. Надійність може бути збільшена шляхом обрізання даних для включення більш центральних значень, наприклад, консенсус випадкових вибірок (RANSAC) є ітераційним методом для оцінки параметрів математичної моделі з набору спостережуваних даних, що містить залишків.

Що тоді є двовимірною регресією? Відсутність тестування на біваріантний характер проблем є найчастішою причиною розведення регресії OLS і було добре представлено в інших місцях на цьому сайті. Концепція упередженості OLS в цьому контексті недостатньо визнана, див., Наприклад, Фрост і Томпсон, представлені Лонгфордом та ін. (2001), який посилає читача на інші методи, розширюючи регресійну модель, щоб визнати мінливість змінної , щоб не виникало упередженості . Іншими словами, двоваріантну регресію випадку не можна ігнорувати, коли і - іx1 x y x y y 2 x y x y = f ( x )1xy-знаки розподіляються випадковим чином. Необхідність біваріантної регресії можна перевірити, встановивши регресійну лінію OLS до залишків з регресії даних OLS. Тоді, якщо залишки OLS мають ненульовий нахил, проблема є двовимірною і регрес даних OLS матиме величину схилу, що є занадто дрібним, і перехоплення, що має занадто велику величину, щоб бути репрезентативним функціональним співвідношенням між і . У цих випадках лінійний оцінювач найменшої помилки значень дійсно все ще буде від регресії OLS, і його значення R значення буде максимально можливим, але лінія регресії OLS не буде представляти фактичну функцію лінії, що стосується іxyy2xy випадкові величини. В якості протилежного прикладу, коли, як це трапляється серед інших проблем у часовому ряду з рівновіддаленими , OLS вихідних даних не завжди є недоречним, він може представляти найкращий рядок , але все ще підлягає змінної трансформації, наприклад для даних лічильників, потрібно взяти квадратний корінь підрахунків, щоб перетворити помилки розподіленої помилки Пуассона в більш нормальні умови, і все ж слід перевірити наявність ненульового нахилу залишків. xy=f(x)

  1. Лонгфорд, штат Нью-Йорк (2001). «Листування». Журнал Королівського статистичного товариства, серія A. 164: 565. doi: 10.1111 / 1467-985x.00219
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.