Відповіді:
Наслідки гетероседастичності:
Оцінювач звичайних найменших квадратів (OLS) досі є послідовним, але він більше не ефективний .
Оцінка де вже не є послідовним оцінювачем матриці коваріації вашого оцінювача . Це може бути як упередженим, так і непослідовним. І на практиці вона може істотно занижувати дисперсію.
Пункт (1) може не бути головним питанням; люди так чи інакше використовують звичайний OLS-оцінювач. Але пункт (2) необхідно вирішити. Що робити?
Вам потрібні стандартні помилки, відповідні гетероседастичності . Стандартний підхід полягає в тому, щоб спиратися на припущення великого зразка, асимптотичні результати та оцінювати дисперсію використовуючи:
Це дає стандартні помилки, сумісні з гетерокедастичністю. Вони також відомі як стандартні помилки Huber-White, надійні стандартні помилки, оцінювач "сендвіч" тощо. Будь-який базовий стандартний пакет статистики має можливість для надійних стандартних помилок. Використай це!
Якщо гетероскедастичність досить велика, регулярна оцінка OLS може мати великі практичні проблеми. Незважаючи на те, що він є послідовним оцінювачем, у вас можуть виникнути невеликі вибіркові проблеми, коли вся ваша оцінка визначається кількома спостереженнями з великою дисперсією. (Про це в коментарях натякає @ seanv507). Оцінювач OLS неефективний тим, що надає більше уваги спостереженням з великою дисперсією, ніж оптимальним. Оцінка може бути надзвичайно галасливою.
Проблема з спробою виправити неефективність полягає в тому, що ви, ймовірно, не знаєте коваріаційної матриці для термінів помилки, отже, використання чогось типу GLS може зробити ще гірше, якщо ваша оцінка матриці коваріації терміна помилки є сміттям.
Крім того, стандартні помилки Хубер-Уайта, які я наведу вище, можуть мати великі проблеми у невеликих зразках. На цю тему існує довга література. Напр. див. Імбенс і Колесар (2016), "Надійні стандартні помилки в малих зразках: деякі практичні поради".
Якщо це самостійне вивчення, наступною практичною справою слід вважати кластеризовані стандартні помилки. Вони коректні для довільної кореляції всередині кластерів.
Ну коротка відповідь - це в основному ваша модель неправильна, тобто
Так, у випадку гетероскедастичності виникають проблеми з оцінкою дисперсійно-коваріаційної матриці, які призводять до неправильних стандартних помилок коефіцієнтів, що, в свою чергу, призводить до неправильної t-статистики та p-значень. Коротко кажучи, якщо ваші помилкові умови не мають постійної дисперсії, то звичайні найменші квадрати не є найбільш ефективним способом оцінки. Погляньте на це пов'язане питання.
"Гетероседастичність" ускладнює оцінку справжнього стандартного відхилення помилок прогнозу. Це може призвести до довірчих інтервалів, які занадто широкі або занадто вузькі (зокрема, вони будуть занадто вузькими для позапробних прогнозів, якщо дисперсія помилок зростатиме з часом).
Також модель регресії може занадто сильно зосереджена на підмножині даних.
Хороша довідка: Тестування припущень лінійної регресії