Що означає наявність «постійної дисперсії» в моделі лінійної регресії?


53

Що означає наявність «постійної дисперсії» у терміні помилки? Як я бачу, у нас є дані з однією залежною змінною та однією незалежною змінною. Постійна дисперсія є одним із припущень лінійної регресії. Мені цікаво, що означає гомоскедастичність. Оскільки навіть якщо у мене 500 рядків, я мав би значення однієї дисперсії, яке, очевидно, є постійним. З якою змінною я повинен порівняти дисперсію?

Відповіді:


34

Це означає, що коли ви будуєте індивідуальну помилку проти передбачуваного значення, дисперсія прогнозованого значення помилки повинна бути постійною. Дивіться червоні стрілки на малюнку нижче, довжина червоних ліній (проксі його дисперсії) однакова.

введіть тут опис зображення


1
Добре зрозумів. !! Але оскільки це припущення, нам не потрібно перевіряти припущення перед запуском моделі. І навіщо нам це припущення
Мукул

2
Деякі припущення можна перевірити лише після запуску моделі. Обчислення моделі - це лише математика і не те саме, що інтерпретувати модель.
Іоанн

6
Діапазон не дорівнює різниці Penguin Knight, тому ви, можливо, захочете оновити формулювання тут.
Іоанн

4
Якщо припущення про дисперсію невірно, це, як правило, означає, що стандартні помилки є помилковими і будь-яке тестування гіпотез може зробити неправильні висновки. (Інший Іван)
Іван,

4
Я трохи відрізняюся. Я б не сказав, що гетероскедастичність обов'язково означає, що стандартні помилки ваших бета-версій є неправильними, а швидше, що OLS-оцінювач вже не є найефективнішим об'єктивним оцінювачем. Тобто, ви могли б отримати більшу потужність / точність, якби у вас була постійна дисперсія (можливо, через перетворення Y), або якщо ви точно врахували несталість (можливо, через узагальнений оцінювач найменших квадратів).
gung - Відновити Моніку

58

Це місце, де я виявив, що перегляд якихось формул допомагає навіть людям, які мають певну математичну тривожність (я не пропоную цього робити обов'язково). Проста модель лінійної регресії така: Тут важливо зазначити, що ця модель явно констатує, щойно ви оцінили змістовну інформацію в даних (це " "), нічого не залишається, крім білого шуму. Більше того, помилки розподіляються як нормальні з дисперсією .

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

Важливо усвідомити, що не є змінною (хоча в алгебрі рівня молодшої середньої школи ми би це називали). Він не змінюється. змінюється. змінюється. Термін помилки, , змінюється випадковим чином ; тобто це випадкова величина . Однак параметри ( є заповнювачами значень, які ми не знаємо - вони не змінюються. Натомість вони невідомі константи . Підсумок цього факту для цієї дискусії полягає в тому, що незалежно від того, що таке (тобто яке значення тут підключено),σε2XYεβ0, β1, σε2)Xσε2залишається таким же. Іншими словами, дисперсія помилок / залишків є постійною. Для контрасту (а можливо більшої чіткості) розглянемо цю модель: У цьому випадку ми підключаємо значення для (починаючи з третього рядка) , передати його через функцію і отримати дисперсію помилок , яка отримує при цьому точному значенні . Потім переходимо через решту рівняння, як зазвичай.

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

Вищенаведене обговорення повинно допомогти зрозуміти природу припущення; питання також задає питання про те, як це оцінити . В основному існує два підходи: тести формальної гіпотези та вивчення сюжетів. Тести на гетероседастичність можна використовувати, якщо у вас є експериментальні дані (тобто такі, що трапляються лише при фіксованих значеннях ) або ANOVA. Я обговорюю кілька таких тестів: Чому тест Левене на рівність дисперсій, а не F-відношенняX. Однак я схильний вважати, що найкраще виглядати сюжети. @Penquin_Knight вдало продемонстрував, як виглядає константна дисперсія, побудувавши залишки моделі, де отримана гомосексуальність проти встановлених значень. Гетероскедастичність також може бути виявлена ​​в графіці необроблених даних або в графіці розміщення (також званої на рівні поширення). R зручно розміщує останнє для вас із закликом до plot.lm(model, which=2); це квадратний корінь абсолютних значень залишків проти встановлених значень, причому корисна накладення кривої низькості . Ви хочете, щоб пристосування низького розміру було рівним, а не похилим.

Розглянемо наведені нижче графіки, які порівнюють, як можуть виглядати дані гомосептичних та гетеросептичних даних у цих трьох різних типах фігур. Зверніть увагу на форму воронки для двох верхніх гетероскедастичних ділянок та нахилу вгору нахилу в останньому.

введіть тут опис зображення

Для повноти ось код, який я використовував для створення цих даних:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
дякую, це дуже корисно. Чи можете ви також пояснити, для чого нам потрібне це припущення мовою
мирян

5
Ласкаво просимо, @Mukul. Припущення гомоседастичності (постійної дисперсії) необхідне для того, щоб оцінювач OLS (тобто програмне забезпечення за замовчуванням використовує програмне забезпечення для оцінювання бета-версій) оцінював процедуру, яка дасть вибіркові розподіли бета-версій, які мають найвужчі стандартні помилки всіх процедур оцінки, які дають вибіркові розподіли, орієнтовані на справжнє значення. IE, необхідно, щоб Оцінювач OLS був мінімальним неупередженим оцінкою .
gung - Відновіть Моніку

5
Якщо ваша змінна відповідь є двійковою , вона розподілятиметься як двочлен. Тобто, багато описані вище частини лінійної регресійної моделі є невідповідними. 1 з цих питань полягає в тому, що, оскільки дисперсія двочлена є функцією середнього (середнє: , дисперсія: ), припущення про гомоскедастичність порушується. Щоб зрозуміти ці речі краще, можливо, допоможе прочитати тут мою відповідь: різниця між-logit-та-probit-моделями , хоча це було написано в іншому контексті. p(p(1p))/n)
gung - Відновіть Моніку

2
@gung у своєму коментарі ви поставили курсив до всіх слів у фразі мінімальної дисперсійної неупередженої оцінки. Я розумію, що з гетероседастичністю оцінювач стане менш ефективним (більше дисперсії), але чи стане він також упередженим?
user1205901

5
@ user1205901, він залишається неупередженим.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.