Чому лінійна регресія має припущення щодо залишкової, але узагальненої лінійної моделі, має припущення щодо реакції?


14

Чому лінійна регресія та узагальнена модель мають суперечливі припущення?

  • При лінійній регресії ми припускаємо, що залишковий приходить із форми Гаусса
  • В інших регресіях (логістична регресія, регресія отрути), ми припускаємо, що реакція надходить з деякого розподілу (біноміальний, отруєний тощо).

Чому іноді припускають залишковий, а інший час припускають відповідь? Це тому, що ми хочемо отримати різні властивості?


EDIT: Я думаю, що у шоу99999 дві форми рівні. Однак у мене є додаткові сумніви щодо Iid:

Інший мій питання: Чи є припущення про логістичну регресію? показує, що узагальнена лінійна модель не має iid припущення (незалежне, але не тотожне)

Це правда, що для лінійної регресії, якщо ми будемо ставити припущення щодо залишкового , у нас буде iid, але якщо ми будемо припускати відповідь , у нас будуть незалежні, але не однакові вибірки (різні гауссові з різними )?μ


Відповіді:


12

Проста лінійна регресія з гауссовими помилками - дуже приємний атрибут, який не узагальнює генералізовані лінійні моделі.

У узагальнених лінійних моделях відповідь дотримується деякого заданого розподілу, заданого середнього значення . Лінійна регресія слідує цій схемі; якщо ми маємо

yi=β0+β1xi+ϵi

при ϵiN(0,σ)

то ми також маємо

yiN(β0+β1xi,σ)

Гаразд, тому відповідь випливає із заданого розподілу для узагальнених лінійних моделей, але для лінійної регресії ми також маємо, що залишки слідують за Гауссовим розподілом. Чому підкреслюється, що залишки є нормальними, коли це не узагальнене правило? Ну, тому що це набагато корисніше правило. Приємна думка про нормальність залишків - це набагато простіше вивчити. Якщо відняти передбачувані засоби, всі залишки повинні мати приблизно однакову дисперсію і приблизно однакове середнє значення (0) і будуть приблизно розподілені (зверніть увагу: я кажу "приблизно", тому що якщо ми не маємо досконалих оцінок параметри регресії, яких, звичайно, ми не робимо, дисперсія оцінок ϵiматимуть різні відхилення на основі діапазонів . Але, сподіваємось, достатньо точності в оцінках, що це нехтування!).x

З іншого боку, дивлячись на невідрегульований 's, ми не можемо реально сказати, чи нормальні вони, якщо всі вони мають різні засоби. Наприклад, розглянемо таку модель:yi

yi=0+2×xi+ϵi

при і x iБернуллі ( p = 0,5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

Тоді буде сильно бимодальним, але не порушує припущень лінійної регресії! З іншого боку, залишки будуть дотримуватися приблизно нормального розподілу.yi

Ось кілька Rкод для ілюстрації.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

гістограми


yi=1+2×xi+ϵi

3
@ hxd1011: так, це різниця між граничним розподілом (явно не нормальним) і умовним розподілом, заданим x (ми знаємо, що це нормально, оскільки ми імітували його!). Не думати про різницю між умовними та граничними розподілами - надзвичайно поширена помилка.
Кліф АВ

14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

Xi1,,Xikβ0+β1Xi1++βkXik

Звичайна модель множинної лінійної регресії з нормальними помилками є узагальненою лінійною моделлю з нормальним зв'язком реакції та ідентичності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.