Який повний перелік звичайних припущень для лінійної регресії?


72

Які звичайні припущення для лінійної регресії?

Чи включають вони:

  1. лінійна залежність між незалежною та залежною змінною
  2. незалежні помилки
  3. нормальний розподіл помилок
  4. гомоскедастичність

Чи є інші?


3
Ви можете знайти досить повний список у маленькій книзі Вільяма Беррі на тему "Розуміння припущень щодо регресії": books.google.com/books/about/…

3
Хоча респонденти перелічили деякі хороші ресурси, на це важко відповісти у такому форматі, і (багато) книг були присвячені виключно цій темі. Немає кулінарної книги, а також не слід враховувати різноманітні ситуації, які могли б охопити лінійну регресію.
Andy W

3
Технічно, (звичайна) лінійна регресія є модель виду , Y я IID. Це просте математичне твердження охоплює всі припущення. Це змушує мене думати, @Andy W, що ви можете інтерпретувати питання ширше, можливо, в сенсі мистецтва та практики регресії. Ваші подальші думки з цього приводу можуть бути корисні тут. E[Yi]=XiβYi
whuber

2
@Andy WI не намагався припустити, що ваше тлумачення було невірним. Ваш коментар запропонував подумати над питанням, яке виходить за рамки технічних припущень, можливо, вказуючи на те, що може знадобитися для коректного тлумачення результатів регресії. Не потрібно було б писати трактат у відповідь, але навіть перелік деяких ширших питань може висвітлити і може розширити сферу застосування та інтерес цієї теми.
whuber

1
@whuber, якщо це означає, що засоби різні для різних i , отже, Y я не можу бути EYi=XiβiYi
ідітом

Відповіді:


78

Відповідь сильно залежить від того, як ви визначаєте повне та звичайне. Припустимо, ми записуємо лінійну регресійну модель наступним чином:

yi=xiβ+ui

де xi - вектор змінних предиктора, β - інтерес-параметр, yi - змінна відповіді, а ui - порушення. Одним з можливих оцінок β є оцінкою найменших

β^=argminβ(yixiβ)2=(xixi)1xiyi.

В даний час практично всі підручників мати справу з припущеннями , коли ця оцінка β має бажані властивості, такі як незсуненості, послідовність, ефективність, деякі дистрибутивні властивості і т.д.β^

Кожна з цих властивостей вимагає певних припущень, які не є однаковими. Отже, краще питання - запитати, які припущення потрібні для шуканих властивостей оцінки LS.

Властивості, про які я згадував вище, потребують певної моделі ймовірності для регресії. І тут ми маємо ситуацію, коли різні моделі використовуються в різних прикладних сферах.

Простий випадок - трактувати yi як незалежні випадкові величини, при цьому xi є невипадковими. Мені не подобається слово звичайне, але можна сказати, що це звичайний випадок у більшості застосованих полів (наскільки я знаю).

Ось перелік деяких бажаних властивостей статистичних оцінок:

  1. Оцінка існує.
  2. Eβ^=β E β = β .
  3. β^β & beta ; → & beta ; в n ( n тут розмір вибірки даних).
  4. Ефективність: Var(β^) менше , ніж Var(β~) для альтернативних оцінок β~ з β .
  5. Здатність або приблизна або обчислити функцію розподілу р .β^

Існування

Наявність властивості може здатися дивним, але це дуже важливо. У визначенні р ми инвертировать матрицю Е х я х ' I .β^xixi.

Не гарантується, що інверсія цієї матриці існує для всіх можливих варіантів xi . Тож ми відразу отримуємо перше припущення:

Матриця xixi повинна мати повний ранг, тобто зворотну.

Незаангажованість

Ми маємо

Eβ^=(xixi)1(xiEyi)=β,
якщо
Eyi=xiβ.

Ми можемо її віднести до другого припущення, але ми, можливо, це сказали прямо, оскільки це один із природних способів визначення лінійних співвідношень.

Eyi=xiβixi

Послідовність

pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Цей варіант нерівності походить безпосередньо від застосування нерівності Маркова до , зазначаючи, що .)β^β2Eβ^β2=TrVar(β^)

Оскільки конвергенція у ймовірності означає, що термін лівої руки повинен зникнути для будь-якого як , нам знадобиться як . Це цілком розумно, оскільки з більшою кількістю даних слід збільшити точність, з якою ми оцінюємо .ε>0nVar(β^)0nβ

У нас є

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

Незалежність гарантує, що , отже, вираз спрощується до Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Тепер припустимо , тоді Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Тепер, якщо ми додатково вимагаємо, щоб було обмежено для кожного , ми негайно отримуємо 1nxixin

Var(β)0 as n.

Отже, щоб отримати послідовність, ми припустили, що немає автокореляції ( ), дисперсія є постійною, а не надто зростає. Перше припущення виконується, якщо походить з незалежних вибірок.Cov(yi,yj)=0Var(yi)xiyi

Ефективність

Класичний результат - теорема Гаусса-Маркова . Умови для нього - це саме перші дві умови консистенції та умова неупередженості.

Властивості розподілу

Якщо є нормальним, ми відразу отримуємо, що є нормальним, оскільки це лінійна комбінація нормальних випадкових величин. Якщо припустити попередні припущення незалежності, некорельованості та постійної дисперсії, отримаємо, що де .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Якщо не є нормальними, але незалежними, ми можемо отримати приблизний розподіл завдяки центральній граничній теоремі. Для цього ми повинні вважати , що для деякої матриці . Постійна дисперсія для асимптотичної нормальності не потрібна, якщо припустити, що yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Зверніть увагу , що при постійній дисперсії , маємо . Тоді центральна межа теореми дає нам такий результат:yB=σ2A

n(β^β)N(0,A1BA1).

Отже, з цього ми бачимо, що незалежність та постійна дисперсія для та певні припущення для дає нам багато корисних властивостей для оцінки LS .yixiβ^

Вся справа в тому, що ці припущення можна розслабити. Наприклад, нам потрібно було, щоб не були випадковими змінними. Це припущення неможливо здійснити в економетричних програмах. Якщо дозволити випадковими, ми можемо отримати подібні результати, якщо використовувати умовні очікування та врахувати випадковість . Припущення про незалежність також може бути послабленим. Ми вже продемонстрували, що іноді потрібна лише некоректність. Навіть це може бути ще більш ослабленим, і все одно можна показати, що оцінка LS буде послідовною і асимптотичною нормальною. Дивіться, наприклад , книгу Білого для більш детальної інформації.xixixi


Коментар до теореми Гаусса-Маркова. Він лише стверджує, що OLS кращий за інші оцінки, які є лінійними функціями даних. Однак багато широко використовуваних оцінювачів, зокрема, максимальна ймовірність (ML), не є лінійними функціями даних, і можуть бути набагато ефективнішими, ніж OLS в умовах теореми Гаусса-Маркова.
Пітер Вестпад

@PeterWestfall Для нормальних помилок в гауссі, MLE - це OLS :) І ви не можете отримати ефективнішу, ніж MLE. У цій посаді я намагався бути легким з математичними деталями.
mpiktas

1
Моя думка полягала в тому, що при нормальних розподілах існує набагато ефективніші оцінки, ніж OLS, коли дотримуються умови ГМ. GM по суті є марним, як твердження, що OLS "хороший" за ненормативності, оскільки найкращі оцінки в ненормальних випадках - це нелінійні функції даних.
Пітер Вестпад

@mpiktas Отже, або ми беремо як не випадковий, і використовуємо оцінювач або беремо як випадковий і використовуємо оцінювач ? xY^xY|x^
Parthiban Rajendran

16

Тут є ряд хороших відповідей. Мені здається, що є одне припущення, яке не було викладено (принаймні, не прямо). Зокрема, модель регресії передбачає, що (значення ваших пояснювальних / прогнозних змінних) є фіксованим і відомим , і що вся невизначеність у ситуації існує в межах змінноїКрім того, ця невизначеність передбачається лише помилкою вибірки . XY

Ось два способи подумати над цим: Якщо ви будуєте пояснювальну модель (моделюючи експериментальні результати), ви точно знаєте, що таке рівні незалежних змінних, оскільки ви маніпулювали ними / керували ними. Більше того, ви вирішили, якими будуть ці рівні, перш ніж ви коли-небудь почали збирати дані. Отже, ви усвідомлюєте всю невизначеність у відносинах як існуючу в рамках відповіді. З іншого боку, якщо ви будуєте модель прогнозування, це правда, що ситуація відрізняється, але ви все одно ставитесь до прогнозів, як ніби вони були виправлені та відомі, адже в майбутньому, коли ви використовуєте модель для прогнозування про ймовірне значення , у вас буде векторyx, і модель розроблена для того, щоб вважати ці значення такими, що вони є правильними. Тобто ви будете мислити невизначеність як невідому цінність . y

Ці припущення можна побачити в рівнянні для прототипічної регресійної моделі: Модель з невизначеністю (можливо, через похибку вимірювання) в також може мати той самий процес генерування даних, але модель оціночне значення виглядатиме так: де являє собою випадкову помилку вимірювання. (Такі ситуації, як останні, призвели до помилок у моделях змінних ; основним результатом є те, що якщо в є помилка вимірювання , наївний

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1буде ослаблено - ближче до 0, ніж його справжнє значення, і що якщо у є похибка вимірювання , статистичні тести 's будуть недостатніми, але в іншому випадку неупередженими.) yβ^

Одним з практичних наслідків властивості асиметрії в типовому припущенні є те, що регресування на відрізняється від регресування на . (Дивіться мою відповідь тут: у чому різниця між лінійною регресією на y з x проти x з у? Для більш детального обговорення цього факту.)yxxy


Що означає "фіксований" | «Випадковий» простою мовою? І як розрізнити фіксований та випадковий вплив (= фактори)? Я думаю, що в моєму дизайні є 1 фіксований відомий фактор з 5 рівнями. Правильно?
stan

1
@stan, я визнаю вашу плутанину. Термінологія в статистиці часто плутає і не допомагає. В цьому випадку, «фіксований» не зовсім такий же , як фіксовані в «фіксованих ефектів і випадкових ефектів» (хоча вони пов'язані між собою ). Тут ми не говоримо про ефекти - ми говоримо про дані , тобто ваші прогнозні / пояснювальні змінні. Найпростіший спосіб зрозуміти ідею фіксування даних - це продумати запланований експеримент. Перш ніж ви щось зробите, розробляючи експеримент, ви вирішуєте, якими будуть рівні ваших пояснень, ви не виявите їх по дорозі. XX
гунг

Моделювання з прогнозуванням, це не зовсім вірно, але ми будемо так ставитись до наших даних у майбутньому, коли будемо використовувати модель для прогнозування. X
гунг

Чому βs та ε мають капелюх у нижньому рівнянні, а не у верхньому?
user1205901

2
@ user1205901, верхня модель - це процес генерування даних, нижній - ваша оцінка цього.
gung

8

Припущення класичної лінійної регресійної моделі включають:

  1. Лінійний параметр і правильна специфікація моделі
  2. Повний ранг X Матриці
  3. Пояснювальні змінні повинні бути екзогенними
  4. Незалежні та ідентично розподілені умови помилок
  5. Нормальні умови розподілених помилок у населенні

Хоча відповіді тут дають вже хороший огляд класичного припущення OLS, ви можете знайти більш повний опис припущення про класичну лінійну регресійну модель тут:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Крім того, у статті описані наслідки у випадку порушення певних припущень.


6

Для обгрунтування OLS можуть бути використані різні припущення

  • У деяких ситуаціях автор випробовує залишки на нормальність.
    • Але в інших ситуаціях залишки не є нормальними, і автор все одно використовує OLS!
  • Ви побачите тексти, що говорять про те, що гомоскедастичність - це припущення.
    • Але ви бачите дослідників, які використовують OLS, коли порушується гомоскедастичність.

Що дає ?!

Відповідь полягає в тому, що дещо різні набори припущень можуть бути використані для обгрунтування використання звичайних оцінок найменших квадратів (OLS). OLS - такий інструмент, як молоток: ви можете використовувати молоток на цвяхах, але можете також використовувати його на кілочках, щоб розбити лід тощо.

Дві широкі категорії припущень - це ті, які застосовуються до малих вибірок, і ті, які покладаються на великі вибірки, щоб можна було застосувати центральну граничну теорему .

1. Невеликі прикладні припущення

Невеликі прикладні припущення, як обговорювалося в Hayashi (2000), є:

  1. Лінійність
  2. Сувора екзогенність
  3. Ніякої мультиколінеарності
  4. Сферичні помилки (гомоскедастичність)

Згідно з (1) - (4) застосовується теорема Гаусса-Маркова , а звичайний оцінювач найменших квадратів - найкращий лінійний неупереджений оцінювач.

  1. Нормальність помилок

Подальше припущення нормальних термінів помилки дозволяє перевірити гіпотезу . Якщо умови помилки умовно нормальні, розподіл ОЦП також є умовно нормальним.

Іншим важливим моментом є те, що за нормальності оцінка OLS також є оцінкою максимальної ймовірності .

2. Великі прикладні припущення

Ці припущення можуть бути змінені / розслаблені, якщо у нас є достатньо велика вибірка, щоб ми могли спиратися на закон великих чисел (для послідовності оцінки ОЛС) та центральну граничну теорему (щоб розподіл вибірки ОЛС-оцінювача сходився до нормальний розподіл, і ми можемо зробити тестування гіпотез, поговорити про p-значення тощо ...).

Хаяші - макроекономічний хлопець, і його великі прикладні припущення сформульовані з урахуванням контексту часового ряду:

  1. лінійність
  2. ергодична стаціонарність
  3. заздалегідь визначені регресори: помилки-терміни є ортогональними щодо їх одночасних помилок.
  4. E[xx] - повний ранг
  5. xiϵi - це послідовність різниці мартингалів з кінцевими секундами.
  6. Кінцеві 4-і моменти регресорів

Ви можете зіткнутися з більш сильними версіями цих припущень, наприклад, що умови помилок не залежать.

Належне велике примірне припущення приводить вас до розподілу вибірки оцінювача OLS, яке є асимптотично нормальним.

Список літератури

Хаяші, Фуміо, 2000, Економетрика


5

Це все про те, що ви хочете зробити зі своєю моделлю. Уявіть, чи були ваші помилки позитивно перекошеними / ненормальними. Якщо ви хочете зробити інтервал передбачення, ви могли б зробити краще, ніж використовувати t-розподіл. Якщо ваша дисперсія менша при менших прогнозованих значеннях, знову ж таки, ви будете робити занадто великий інтервал прогнозування.

Краще зрозуміти, чому припущення існують.


4

Наступні діаграми показують, які припущення потрібні для отримання наслідків для кінцевого та асимптотичного сценаріїв.

Кінцеві припущення OLS

асимптотичні припущення OLS

Я думаю, що важливо подумати не лише про те, які є припущення, а які наслідки мають ці припущення. Наприклад, якщо ви дбаєте лише про об'єктивні коефіцієнти, то вам не потрібна гомоскедастичність.


2

Далі наведені припущення щодо аналізу лінійної регресії.

Правильна специфікація . Правильно вказана лінійна функціональна форма.

Сувора екзогенність . Помилки в регресії повинні мати середнє умовне значення.

Ніякої мультиколінеарності . Регресори в X повинні бути лінійно незалежними.

Гомоседастичність, що означає, що термін помилки має однакову дисперсію в кожному спостереженні.

Ніякої автокореляції : помилки некорельовані між спостереженнями.

Нормальність. Іноді додатково передбачається, що помилки мають звичайний розподіл, що залежить від регресорів.

Iid спостереження : не залежить від та має таке ж розподіл, що і для всіх .(xi,yi)(xj,yj)ij

Для отримання додаткової інформації відвідайте цю сторінку .


4
Замість того, щоб "немає мультиколінності", я б сказав "немає лінійної залежності". Колінеарність часто використовується як безперервний, а не категоричний захід. Заборонена лише сувора або точна колінеарність.
Пітер Флом

2
Що щодо регресії часових рядів? Що щодо узагальнених найменших квадратів? Ваш список виглядає так само, як список заповідей, коли насправді останні 4 припущення можуть бути занадто обмежуючими, якщо ми дбаємо лише про послідовність та асимптотичну нормальність оцінок найменших квадратів.
mpiktas

1
Мультиколінеарність викликає проблеми інтерпретації (пов'язані з ідентифікацією деяких параметрів), але це, безумовно, не є стандартним припущенням лінійних регресійних моделей. Близько мультиколінеарність - це насамперед обчислювальна проблема, але також викликає подібні питання тлумачення.
whuber

@whuber & Peter Flom: Як я читав у книзі Гуджараті на сторінці № 65-75. tiny.cc/cwb2g Це "відсутність мультиколінеарності" вважається припущенням регресійного аналізу.
love-stats

@mpiktas: Якщо ви відвідаєте вказану URL-адресу у відповіді, ви знайдете припущення про регресію часових рядів.
любов-статистика

2

Немає такого поняття, як єдиний перелік припущень, їх буде як мінімум 2: одне для фіксованого та одне для випадкової матриці проектування. Крім того, ви можете переглянути припущення щодо регресії часових рядів (див. Стор. 13)

Випадок , коли матриця є фіксованим може бути найбільш поширеною, і його припущення часто виражається у вигляді теореми Гаусса-Марков . Фіксована конструкція означає, що ви справді керуєте регресорами. Наприклад, ви проводите експеримент і можете встановити такі параметри, як температура, тиск тощо. Дивіться також с. 13 тут .X

На жаль, в таких соціальних науках, як економіка, ви рідко можете контролювати параметри експерименту. Зазвичай ви спостерігаєте, що відбувається в економіці, записуєте показники навколишнього середовища, а потім регресуєте на них. Виявляється, це зовсім інша і більш складна ситуація, яка називається випадковою конструкцією. У цьому випадку теорема Гаусса-Маркова модифікована, також дивіться с.12 тут . Ви можете бачити, як умови виражаються зараз в умовних вірогідностях, що не є нешкідливою зміною.

У економетриці припущення мають назви:

  • лінійність
  • сувора екзогенність
  • відсутність мультиколінеарності
  • дисперсія сферичної помилки (включає гомоскедастичність і відсутність кореляції)

Зауважте, що я ніколи не згадував про нормальність. Це не стандартне припущення. Його часто використовують на курсах інтрорегресії, оскільки вони полегшують деякі похідні, але для того, щоб регресія працювала і мала приємні властивості, її не потрібно.


1

Припущення про лінійність полягає в тому, що модель у параметрах лінійна. Добре мати регресійну модель з квадратичними або вищими порядками, доки функція потужності незалежної змінної є частиною лінійної моделі адитивів. Якщо модель не містить термінів вищого порядку, коли це слід, то відсутність придатності буде очевидною в графіку залишків. Однак стандартні регресійні моделі не містять моделей, в яких незалежна змінна піднімається на потужність параметра (хоча є й інші підходи, які можна використовувати для оцінки таких моделей). Такі моделі містять нелінійні параметри.


1

Коефіцієнт регресії найменших квадратів забезпечує спосіб узагальнення тенденції першого порядку в будь-яких видах даних. Відповідь @mpiktas - це ретельна обробка умов, за яких найменші квадрати стають все більш оптимальними. Я хотів би піти іншим шляхом і показати найзагальніший випадок, коли працює найменше квадратів. Давайте подивимось найбільш загальну формулу рівняння найменших квадратів:

E[Y|X]=α+βX

Це просто лінійна модель для умовного середнього рівня відповіді.

Зауважте, що я виправдав термін помилки. Якщо ви хочете узагальнити невизначеність , то вам слід звернутися до центральної граничної теореми. Найбільш загальний клас оцінювачів найменших квадратів збігається до нормального, коли виконується умова Ліндеберга : кип'ятившись, умова Ліндеберга для найменших квадратів вимагає, щоб частка найбільшого залишкового квадрата до суми суми залишків у квадраті повинна дорівнювати 0, як . Якщо ваша конструкція дозволить тримати вибірку все більших і більших залишків, то експеримент "мертвий у воді".βn

Коли виконується умова Ліндеберга, параметр регресії добре визначений, а оцінювач - це неупереджений оцінювач, який має відомий апроксимуючий розподіл. Можливі ефективніші оцінки. В інших випадках гетероскедастичності або корельованих даних зазвичай зважений оцінювач є більш ефективним . Ось чому я б ніколи не виступав за використання наївних методів, коли є кращі. Але їх часто немає!ββ^


1
Для економістів: Варто зазначити, що ця умова передбачає сувору екзогенність, тому сувору екзогенність не потрібно зазначати як припущення в умовно-середній моделі. Це автоматично вірно, математично. (Тут говорять теорії, а не оцінки.)
Пітер Вестфаль
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.