Які небезпеки порушують припущення гомоскедастичності для лінійної регресії?


28

Як приклад, розглянемо ChickWeightнабір даних у Р. Дисперсія очевидно зростає з часом, тому якщо я використовую просту лінійну регресію, наприклад:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Мої запитання:

  1. Які аспекти моделі будуть сумнівними?
  2. Чи обмежуються проблеми екстраполяцією поза Timeдіапазоном?
  3. Наскільки толерантною є лінійна регресія до порушення цього припущення (тобто, якою вона повинна бути гетеросептичною, щоб викликати проблеми)?

1
Крім речей, зазначених у відповідях, ваші інтервали прогнозування також не матимуть належного покриття.
Glen_b -Встановіть Моніку

Відповіді:


22

Лінійна модель (або "звичайні найменші квадрати") все ще має свою неупередженість у цьому випадку.

Зважаючи на гетерокедастичність в термінах помилок, у вас все ще є неупереджені оцінки параметрів, але ви втрачаєте матрицю коваріації: ваш висновок (тобто тести параметрів) може бути вимкнено. Загальне виправлення полягає у використанні надійного методу для обчислення коваріаційної матриці, яка називається стандартними помилками. Який ви використовуєте, дещо залежить від домену, але метод Білого - це початок.

А для повноти, послідовне співвідношення термінів помилки гірше, оскільки це призведе до упереджених оцінок параметрів.


Надійна оцінка стандартних помилок (як метод Уайта) допомагає з тестами / довірчими інтервалами за параметрами, але чи не допомагають інтервали прогнозування?
kjetil b halvorsen

Коваріація вектора параметрів використовується для обчислення прогнозів, тому ваші інтервали прогнозування також будуть узагальненими.
Мустафа S Еїза

Правильно. Незаангажована затримка, висновок може бути вимкнено. Інші два пара є правильними.
Дірк Еддельбюттель

1
Дякуємо за те, що ви це зробили та були чіткими (а не мовчкими або "проїжджаючими", downvote). Я був просто нерозумним у використанні термінології. Краще зараз.
Дірк Еддельбуеттель,

23

Гомоседастичність - одне з припущень Гаусса Маркова, необхідних для того, щоб OLS був найкращим лінійним неупередженим оцінювачем (BLUE).

Теорема Гаусса-Маркова говорить нам, що оцінювач найменших квадратів для коефіцієнтів є неупередженим і має мінімальну дисперсію серед усіх неупереджених лінійних оцінок, враховуючи, що ми виконуємо всі припущення Гаусса-Маркова. Ви можете знайти більше інформації про теорему Гаусса-Маркова, включаючи математичне доведення теореми тут . Крім того, ви можете знайти повний перелік намірів МНКАА , включаючи пояснення того, що відбувається в разі , якщо вони порушуються тут .β

Якщо коротко узагальнити інформацію з веб-сайтів, наведених вище, гетероскедастичність не вносить упередженості в оцінки ваших коефіцієнтів. Однак, зважаючи на гетеросцедастичність, ви не в змозі належним чином оцінити дисперсію-коваріантну матрицю. Отже, стандартні похибки коефіцієнтів помилкові. Це означає, що не можна обчислити будь-яку t-статистику та p-значення, і, отже, тестування гіпотез неможливо. В цілому, при гетероседастичності OLS втрачає свою ефективність і вже не є СВІТИМ.

Однак гетероскедастичність - це не кінець світу. На щастя, виправити гетероседастичність не складно. Оцінювач сендвіч дозволяє оцінити послідовні стандартні помилки для коефіцієнтів. Тим не менш, обчислення стандартних помилок через сендвіч-оцінювач коштує дорого. Оцінювач не дуже ефективний, а стандартні помилки можуть бути дуже великими. Один із способів повернути деяку ефективність - це кластеризація стандартних помилок, якщо це можливо.

Ви можете знайти більш детальну інформацію з цього приводу на веб-сайтах, про які я згадував вище.


12

Відсутність гомоседастичності може дати ненадійні стандартні оцінки помилок параметрів. Оцінки параметрів є неупередженими. Але оцінки можуть бути неефективними (не БІЛКИми). Детальніше ви можете ознайомитись за наступним посиланням


12

log(Y)Yβs неправильно і призводить до неконкурентної суми абсолютних помилок. Іноді відсутність постійності дисперсії сигналізує про більш фундаментальну проблему моделювання.

Ylog(Y)


1

Тут є хороша інформація в інших відповідях, зокрема на ваше перше запитання. Я думав, що я додам додаткову інформацію щодо ваших останніх двох питань.

  1. Проблеми, пов'язані з гетеросцедастичністю, не обмежуються екстраполяцією. Оскільки вони в першу чергу включають довірчі інтервали довіри, p-значення та межі прогнозування, вони застосовуються у всьому діапазоні ваших даних.
  2. 4×
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.