Які наслідки виникнення непостійної дисперсії в термінах помилки в лінійній регресії?


9

Одне з припущень лінійної регресії полягає в тому, що має існувати постійна дисперсія в термінах помилки і що довірчі інтервали та тести гіпотез, пов'язані з моделлю, покладаються на це припущення. Що саме відбувається, коли умови помилки не мають постійної дисперсії?

Відповіді:


15

Наслідки гетероседастичності:

  1. Оцінювач звичайних найменших квадратів (OLS) досі є послідовним, але він більше не ефективний .b^=(XX)Xy

  2. Оцінка де вже не є послідовним оцінювачем матриці коваріації вашого оцінювача . Це може бути як упередженим, так і непослідовним. І на практиці вона може істотно занижувати дисперсію.Var^(b)=(XX)1σ^2σ^2=1nkeeb^

Пункт (1) може не бути головним питанням; люди так чи інакше використовують звичайний OLS-оцінювач. Але пункт (2) необхідно вирішити. Що робити?

Вам потрібні стандартні помилки, відповідні гетероседастичності . Стандартний підхід полягає в тому, щоб спиратися на припущення великого зразка, асимптотичні результати та оцінювати дисперсію використовуючи:b

Var^(b)=1n(XXn)1S(XXn)1
де оцінюється як .SS=1nki(xiei)(xiei)

Це дає стандартні помилки, сумісні з гетерокедастичністю. Вони також відомі як стандартні помилки Huber-White, надійні стандартні помилки, оцінювач "сендвіч" тощо. Будь-який базовий стандартний пакет статистики має можливість для надійних стандартних помилок. Використай це!

Деякі додаткові коментарі (оновлення)

Якщо гетероскедастичність досить велика, регулярна оцінка OLS може мати великі практичні проблеми. Незважаючи на те, що він є послідовним оцінювачем, у вас можуть виникнути невеликі вибіркові проблеми, коли вся ваша оцінка визначається кількома спостереженнями з великою дисперсією. (Про це в коментарях натякає @ seanv507). Оцінювач OLS неефективний тим, що надає більше уваги спостереженням з великою дисперсією, ніж оптимальним. Оцінка може бути надзвичайно галасливою.

Проблема з спробою виправити неефективність полягає в тому, що ви, ймовірно, не знаєте коваріаційної матриці для термінів помилки, отже, використання чогось типу GLS може зробити ще гірше, якщо ваша оцінка матриці коваріації терміна помилки є сміттям.

Крім того, стандартні помилки Хубер-Уайта, які я наведу вище, можуть мати великі проблеми у невеликих зразках. На цю тему існує довга література. Напр. див. Імбенс і Колесар (2016), "Надійні стандартні помилки в малих зразках: деякі практичні поради".

Напрямок для подальшого вивчення:

Якщо це самостійне вивчення, наступною практичною справою слід вважати кластеризовані стандартні помилки. Вони коректні для довільної кореляції всередині кластерів.


1
Метью - Я думаю, що більш практичні проблеми могли б прояснити пункт (1). наприклад, чи не був би оцінювач "упередженим" по відношенню до тих регіонів з більшою дисперсією? - що може бути більшою проблемою, якби ці регіони були далеко не середніми, що спричиняли високі ваги
seanv507

3
@ seanv507 гетероскедастичність не змінює оцінку OLS. Я думаю, що ви маєте на увазі неефективність. Шляхом зважування спостережень з високою дисперсією та спостереженнями з низькою дисперсією оцінювач OLS має більш високу дисперсію, ніж теоретично досяжно, якщо щось таке, як зворотна дисперсія . Чи хочете ви використовувати ваші оцінки на етапі оцінки (тобто для оцінки ), залежить від того, наскільки ви вважаєте, що знаєте . σi2bσi2
Меттью Ганн

1
Метью, я знаю, що він не вводить упередженість (прошу вибачення [вам і ОП] за використання терміна в лапках :) Я не міг придумати відповідний термін). Але я намагаюся виявити практичні наслідки (і припускаю, що ОП хоче зрозуміти це) - коли / чому пункт (1) не є головним питанням. Чи не погоджуєтесь ви, що ефект полягає в тому, що тоді більше залежить від області з великою дисперсією, ніж інтуїтивно можна очікувати / хотіти. (Інтуїтивно зрозуміла пряма лінія полягає в тому, що кожна область має однакову вагу, тоді як недоторканий OLS буде концентруватися більше на високому дисперсійні регіони). b
seanv507

@ seanv507 сміливо додайте власну відповідь!
Меттью Ганн

Замість використання стандартних помилок, пов'язаних з гетерокедастичністю (які Ед Леймер у своєму документі «Тантал на дорозі до Асимптопії» за 2010 рік називає « Білим миттям» ), можна також спробувати виправити точкові оцінки (разом із оцінкою дисперсії) для гетерокедастичності за допомогою WLS. Це, можливо, варто згадати у вашій відповіді.
Річард Харді

3

Ну коротка відповідь - це в основному ваша модель неправильна, тобто

  • Для того щоб метод найменших квадратів , щоб бути B Est L Inear U nbiased E stimator постійна дисперсія членів помилки приймається.
  • Припущення Гаусса-Маркова - якщо вони виконані - гарантують вам, що оцінювач найменших квадратів для коефіцієнтів є неупередженим і має мінімальну дисперсію серед усіх неупереджених лінійних оцінок.β

Так, у випадку гетероскедастичності виникають проблеми з оцінкою дисперсійно-коваріаційної матриці, які призводять до неправильних стандартних помилок коефіцієнтів, що, в свою чергу, призводить до неправильної t-статистики та p-значень. Коротко кажучи, якщо ваші помилкові умови не мають постійної дисперсії, то звичайні найменші квадрати не є найбільш ефективним способом оцінки. Погляньте на це пов'язане питання.


0

"Гетероседастичність" ускладнює оцінку справжнього стандартного відхилення помилок прогнозу. Це може призвести до довірчих інтервалів, які занадто широкі або занадто вузькі (зокрема, вони будуть занадто вузькими для позапробних прогнозів, якщо дисперсія помилок зростатиме з часом).

Також модель регресії може занадто сильно зосереджена на підмножині даних.

Хороша довідка: Тестування припущень лінійної регресії

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.