Лінійна модель Гетероседастичність


10

У мене є така лінійна модель:

Залишки лінійної моделі Розподіл спостережень

Щоб вирішити гетероседастичність залишків, я спробував застосувати перетворення журналу на залежну змінну як але я все ще бачу такий же ефект від вентилятора на залишки. Значення DV порівняно невеликі, тому постійне додавання +1 до взяття журналу, мабуть, не підходить у цьому випадку.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Як я можу перетворити змінні, щоб покращити помилку прогнозу та відхилення, особливо для крайніх правильних значень?

Відповіді:


11

Яка ваша мета? Ми знаємо, що гетерокедастичність не зміщує наші оцінки коефіцієнтів; це лише робить наші стандартні помилки неправильними. Отже, якщо ви дбаєте лише про відповідність моделі, то гетерокедастичність не має значення.

Ви можете отримати більш ефективну модель ( тобто ту, яка має менші стандартні помилки), якщо використовувати найменш зважені квадрати. У цьому випадку потрібно оцінити дисперсію для кожного спостереження та зважити кожне спостереження, обернену відмінністю від конкретної спостереження (у випадку weightsаргументу до lm). Ця процедура оцінки змінює ваші оцінки.

Крім того, для виправлення стандартних помилок для гетерокедастичності без зміни ваших оцінок можна використовувати надійні стандартні помилки. Про Rпрограму дивіться пакет sandwich.

Використання перетворення журналу може бути хорошим підходом для виправлення гетерокедастичності, але лише в тому випадку, якщо всі ваші значення є позитивними та нова модель дає розумне тлумачення стосовно питання, яке ви ставите.


Моя основна мета - зменшити помилки. Мені доведеться роздивитись найменш зважених квадратів, але я мав враження, що перетворення DV - це правильний крок, враховуючи те, як регулярно збільшується залишкова дисперсія для більш високих встановлених значень.
Роберт Кубрик

Що ви маєте на увазі "зменшити помилки"? Середня помилка - 0. Навіть дивлячись на свою ділянку, у будь-якому вікні, яке ви обрали, середнє значення становить 0.
Чарлі,

Я маю на увазі покращення прогнозування моделі, тобто зменшення загальної дисперсії абсолютної помилки та помилок, особливо для більш високих пристосованих значень.
Роберт Кубрик

1
yyy

1
yyyy

4

Ви хочете спробувати трансформацію Box-Cox . Це версія перетворення потужності:

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
y˙

Деякі попередні дискусії включають: Які інші нормалізуючі перетворення зазвичай використовуються поза загальними, такими як квадратний корінь, журнал тощо? і як я повинен перетворити негативні дані, включаючи нулі? . Ви можете знайти код R наступним чином. Як шукати статистичну процедуру в R?

Економетрики перестали турбуватися про гетерокедастичність після семінарної роботи Хальберта Уайта (1980) щодо створення інфекційних процедур, стійких до гетерокедастичності (що насправді лише переказало попередню історію статистиком Ф. Ейкером (1967)). Дивіться сторінку Вікіпедії, яку я щойно переписав.


Дякую, на даний момент я обговорюю, чи застосовувати силову трансформацію чи використовувати надійну регресію, щоб зменшити помилки та покращити інтервали прогнозування. Цікаво, як порівнюють дві техніки. Крім того, якщо я використовую перетворення, мені потрібно буде перетворити передбачувані значення. Це не схоже на очевидну формулу, чи не так?
Роберт Кубрик

y

@Charlie Я маю на увазі en.wikipedia.org/wiki/Robust_regression . Я новачок у цьому, але я розумію, що міцна регресія змінює техніку оцінки, тому залишки повинні бути різними.
Роберт Кубрик

Правильно, це інший метод і змінює ваші оцінки. Я вважаю, що міцний регрес краще підходить для випадків, які мають люди, що втратили життя. Залежно від того, яку версію надійної регресії ви вирішили використовувати та конкретний набір даних, ви можете отримати більш широкі інтервали довіри щодо OLS.
Чарлі

1

Існує дуже просте рішення питання гетероскедастичності, пов'язане із залежними змінними в даних часових рядів. Я не знаю, чи це стосується вашої залежної змінної. Якщо припустити, що замість номінального Y змініть його на% зміну Y у поточному періоді за попередній період. Наприклад, припустимо, що ваш номінальний Y - це ВВП у розмірі 14 трильйонів доларів за останній період. Натомість обчисліть зміну ВВП за останній період (скажімо, 2,5%).

Номінальний часовий ряд завжди зростає і завжди є гетерокедастичним (дисперсія помилки зростає з часом, оскільки значення зростають). Серія зміни%, як правило, гомоскедастична, оскільки залежна змінна значною мірою нерухома.


Y

Це дивно. Зазвичай змінні% змін не є гетероскедастичними. Мені цікаво, чи залишки менш гетерокедастичні, ніж ми думаємо. І що основне питання є одним із інших людей. Я бачу 4 або 5 спостережень у діапазоні 0,15%, які, якщо їх вилучити, зробили б весь графік менш гетерокедастичним. Крім того, як уже згадували інші, гетерокедастичність не пошкодить ваші коефіцієнти регресії, а лише ваші довірчі інтервали та пов'язані зі стандартною помилкою. Однак, дивлячись на свій графік, здається, що на ІС можуть не надто вплинути. І, може бути корисним.
Sympa
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.