Найкращий спосіб боротьби з гетероцедастичністю?


19

У мене є графік залишкових значень лінійної моделі у функціонуванні встановлених значень, де гетероскедастичність дуже чітка. Однак я не впевнений, як мені діяти зараз, тому що, наскільки я розумію, ця гетероскедастичність робить мою лінійну модель недійсною. (Це так?)

  1. Використовуйте надійну лінійну підгонку, використовуючи rlm()функцію MASSупаковки, оскільки це, мабуть, надійно для гетероцедастичності.

  2. Оскільки стандартні помилки моїх коефіцієнтів помиляються через гетероседастичність, я можу просто відрегулювати стандартні помилки, щоб вони були надійними до гетероседастичності? Використовуючи метод, розміщений на стеку Overflow тут: Регресія з виправленими гетерокедастичністю стандартними помилками

Який найкращий метод використовувати для вирішення моєї проблеми? Якщо я використовую рішення 2, чи є мої можливості передбачення моєї моделі абсолютно марними?

Тест Брейша-Язичника підтвердив, що дисперсія не є постійною.

Мої залишки у функціонуванні встановлених значень виглядають так:

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(більша версія)


Ви маєте на увазі "stackoverflow", а не "stackexchange"? (Ви все ще знаходитесь тут у stackexchange.) Якщо це було так, зазвичай краще перенести питання, а не публікувати другу копію (довідка просить не публікувати один і той же Q кілька разів, а вибрати одне найкраще місце).
Glen_b -Встановити Моніку

Різниця в розвороті не стільки, що вплив буде серйозним (тобто, хоча він буде зміщувати ваші стандартні помилки і так впливати на висновок, це, мабуть, не призведе до величезної зміни). Я схильний би розглянути питання про те, чи було поширення пов’язане із середнім значенням, і, можливо, подивіться на GLM чи можливо трансформацію (це впевнено виглядає пов'язане з пристосованим). Що y-змінна?
Glen_b -Встановити Моніку

2
Інша можливість полягає в моделюванні гетероседастичності, наприклад, з використанням glsоднієї з дисперсійних структур з пакету nlme.
Роланд

Відповіді:


18

Це гарне запитання, але я думаю, що це неправильне питання. У вашій фігурі видно, що у вас є більш фундаментальна проблема, ніж гетероседастичність, тобто ваша модель має нелінійність, яку ви не враховували. Багато потенційних проблем, які може мати модель (нелінійність, взаємодія, відсторонення, гетероскедастичність, ненормальність) можуть маскуватися як одна до одної. Я не думаю, що існує жорстке і швидке правило, але загалом я б запропонував вирішити проблеми в порядку

outliers > nonlinearity > heteroscedasticity > non-normality

(наприклад, не переживайте за нелінійність, перш ніж перевіряти, чи є дивні спостереження, котрі перекошують придатність; не переживайте за нормальність, перш ніж турбуватися про гетероседастичність).

У цьому конкретному випадку я підходив би до квадратичної моделі y ~ poly(x,2)(або poly(x,2,raw=TRUE)чи y ~ x + I(x^2)і бачив, чи не змушує вона усунути проблему).


Сюжет невеликий, осі не маркуються. Я не знаю, чи це рештки проти пристосованого сюжету. Я припускав, що ОП включає термін у квадраті, наприклад. Якщо ні, то ви абсолютно праві.
gung - Відновіть Моніку

1
у моєму браузері я бачу, що діапазон осей y переходить від -4 до 3, що, здається,
говорить

1
Привіт Бен, любий те, що ти робиш. Чи можете ви поширитись на думку про те, що "чужі люди" - це найбільше питання? Чи включаєте ви одиничні очки з високим важелем як "вижили", навіть якщо вони мають невеликий залишок? Я постійно маю на увазі надзвичайні ціннісні спостереження в моїй роботі (статистика навколишнього середовища), і я виявляю, що деякі люди (зокрема, EPA), як правило, видувають непропорційним способом (пробачте про будь-яке ненавмисне каламбур) і є способом прагнути щоб їх виключити. Я схильний проявляти толерантне ставлення до людей, що не існують, якщо я не можу знайти хороших доказів того, що вони явно є результатом помилок даних (збір, запис).
Далтон Генс

1
@DaltonHance: ми, мабуть, майже на одній сторінці. Моя думка полягає лише в тому, що якщо у вас є люди, що переживають люди (за будь-яким визначенням), і вони не враховуються будь-якою статистичною моделлю / підходом, яку ви використовуєте (комбіновані моделі, надійна статистика, жировий розподіл тощо), то це , як правило, будуть викручувати всю вашу діагностику - це зробить залишки нелінійними / гетеросептичними / ненормальними. Я, безумовно, погоджуюся, що ви не повинні просто бездумно / рефлексивно їх викидати.
Бен Болкер

8

Я перераховую низку методів боротьби з гетероседастичністю (з Rприкладами) тут: Альтернативи однобічній ANOVA для гетерокедастичних даних . Багато з цих рекомендацій були б менш ідеальними, оскільки у вас є одна безперервна змінна, а не багаторівнева категоріальна змінна, але це може бути приємно прочитати як огляд у будь-якому випадку.

Для вашої ситуації найменш зважені квадрати (можливо, поєднуючись із сильною регресією, якщо ви підозрюєте, що можуть бути деякі люди, що пережили), були розумним вибором. Використання бутербродних помилок Хубер-Білого також було б добре.

Ось кілька відповідей на ваші конкретні запитання:

  1. Міцна регресія - це життєздатний варіант, але було б краще, якби на пару з вагами, на мою думку. Якщо ви не переживаєте, що гетероседастичність обумовлена ​​виснаженнями, ви можете просто використовувати звичайну лінійну регресію з вагами. Будьте в курсі, що дисперсія може бути дуже чутливою до колишніх людей, а ваші результати можуть бути чутливими до невідповідних ваг, тому що для остаточної моделі може бути важливішим, ніж використання надійної регресії, це використання надійної міри дисперсії для оцінки ваги. У пов'язаній нитці я використовую, наприклад, 1 / IQR.
  2. Стандартні помилки помилкові через гетероседастичність. Ви можете скорегувати стандартні помилки за допомогою сендвіч-обробника Huber-White. Це те, що робить @GavinSimpson у пов'язаній потоці SO.

Гетероседастичність не робить вашу лінійну модель цілком недійсною. В першу чергу це впливає на стандартні помилки. Якщо у вас немає інших людей, методи найменших квадратів повинні залишатися неупередженими. Тому точність прогнозування точкових прогнозів не повинна впливати. Охоплення інтервальних прогнозів буде порушено , якщо ви не моделі дисперсії в залежності від і використовувати, щоб відрегулювати ширину ваших інтервалів прогнозування умовно на . XX


1
використання надійної регресії з пакету lmrob автоматично призведе до деякої ваги, чому б не використати їх замість у №1?
tool.ish

1

Завантажте sandwich packageта обчисліть матрицю var-cov вашої регресії var_cov<-vcovHC(regression_result, type = "HC4")(читайте посібник sandwich). Тепер з lmtest packageвикористанням coeftestфункції:

coeftest(regression_result, df = Inf, var_cov)

0

Як виглядає розподіл ваших даних? Це зовсім схоже на криву дзвіночка? З предмета, чи може він взагалі нормально поширюватися? Наприклад, тривалість телефонного дзвінка не може бути негативною. Тож у конкретному випадку викликів гамма-розподіл це добре описує. А з гаммою можна використовувати узагальнену лінійну модель (glm в R)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.