Це місце, де я виявив, що перегляд якихось формул допомагає навіть людям, які мають певну математичну тривожність (я не пропоную цього робити обов'язково). Проста модель лінійної регресії така:
Тут важливо зазначити, що ця модель явно констатує, щойно ви оцінили змістовну інформацію в даних (це " "), нічого не залишається, крім білого шуму. Більше того, помилки розподіляються як нормальні з дисперсією .
Y=β0+β1X+εwhere ε∼N(0,σ2ε)
β0+β1Xσ2ε
Важливо усвідомити, що не є змінною (хоча в алгебрі рівня молодшої середньої школи ми би це називали). Він не змінюється. змінюється. змінюється. Термін помилки, , змінюється випадковим чином ; тобто це випадкова величина . Однак параметри ( є заповнювачами значень, які ми не знаємо - вони не змінюються. Натомість вони невідомі константи . Підсумок цього факту для цієї дискусії полягає в тому, що незалежно від того, що таке (тобто яке значення тут підключено),σ2εXYεβ0, β1, σ2ε)Xσ2εзалишається таким же. Іншими словами, дисперсія помилок / залишків є постійною. Для контрасту (а можливо більшої чіткості) розглянемо цю модель:
У цьому випадку ми підключаємо значення для (починаючи з третього рядка) , передати його через функцію і отримати дисперсію помилок , яка отримує при цьому точному значенні . Потім переходимо через решту рівняння, як зазвичай.
Y=β0+β1X+εwhere ε∼N(0,f(X)) where f(X)=exp(γ0+γ1X)and γ1≠0
Xf(X) X
Вищенаведене обговорення повинно допомогти зрозуміти природу припущення; питання також задає питання про те, як це оцінити . В основному існує два підходи: тести формальної гіпотези та вивчення сюжетів. Тести на гетероседастичність можна використовувати, якщо у вас є експериментальні дані (тобто такі, що трапляються лише при фіксованих значеннях ) або ANOVA. Я обговорюю кілька таких тестів: Чому тест Левене на рівність дисперсій, а не F-відношенняX. Однак я схильний вважати, що найкраще виглядати сюжети. @Penquin_Knight вдало продемонстрував, як виглядає константна дисперсія, побудувавши залишки моделі, де отримана гомосексуальність проти встановлених значень. Гетероскедастичність також може бути виявлена в графіці необроблених даних або в графіці розміщення (також званої на рівні поширення). R зручно розміщує останнє для вас із закликом до plot.lm(model, which=2)
; це квадратний корінь абсолютних значень залишків проти встановлених значень, причому корисна накладення кривої низькості . Ви хочете, щоб пристосування низького розміру було рівним, а не похилим.
Розглянемо наведені нижче графіки, які порівнюють, як можуть виглядати дані гомосептичних та гетеросептичних даних у цих трьох різних типах фігур. Зверніть увагу на форму воронки для двох верхніх гетероскедастичних ділянок та нахилу вгору нахилу в останньому.
Для повноти ось код, який я використовував для створення цих даних:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)