Що робити, якщо залишки звичайно розподіляються, але у ні?


110

У мене дивне запитання. Припустимо, що у вас є невеликий зразок, де залежна змінна, яку ви збираєтеся аналізувати за допомогою простої лінійної моделі, сильно зліва нахилена. Таким чином, ви припускаєте, що нормально не розподіляється, оскільки це призведе до нормально розподіленого y . Але коли ви обчислюєте графік QQ-Normal, є докази того, що залишки нормально розподіляються. Таким чином, кожен може припустити, що термін помилки зазвичай розподіляється, хоча y - ні. Отже, що означає, коли термін помилки здається нормально розподіленим, але у ні?уууу

Відповіді:


143

Доцільно, щоб залишки в регресійній задачі були нормально розподіленими, навіть якщо змінна відповіді не є. Розглянемо універсальну задачу регресії, де . так що модель регресії є відповідною, і надалі припускаємо, що справжнє значення β = 1 . У цьому випадку, поки залишки істинної регресійної моделі є нормальними, розподіл y залежить від розподілу x , оскільки умовне середнє значення y є функцією x . Якщо в наборі даних багато значень xуN(βх,σ2)β=1ухуххякі близькі до нуля і прогресивно менше, чим вище значення , тоді розподіл y буде перекошений ліворуч. Якщо значення х розподіляються симетрично, то y буде розподілено симетрично тощо. Для проблеми з регресією ми припускаємо лише, що відповідь нормально обумовлена ​​значенням x .хухух


9
(+1) Я не думаю, що це можна повторювати досить часто! Дивіться також те саме питання, що обговорювалося тут .
Вольфганг

1
Я розумію вашу відповідь, і це звучить правильно. Принаймні, ти заробив багато позитивних голосів :) Але я зовсім не задоволений. Таким чином , у вашому прикладі припущення , зроблених вами у ~ N ( 1 х , σ 2 ) . Але коли я оцінюю регресію, я оцінюю E ( y | x ) . Таким чином, слід дати x у той час, коли я оцінюю середнє значення. З цього випливає, що x - це значення, і мені не байдуже, як він розподілявся, перш ніж усвідомити це. Отже, y N ( v aβ=1уN(1х,σ2)Е(у|х)х - розподіл y . Я не розумію, де x впливає на y . уN(vалуе,σ2)уху
MarkDollar

4
Я досить (приємно) здивований також кількістю голосів; o) Для отримання даних, що використовуються для регресійної моделі, ви взяли зразок із деякого спільного розподілу , з якого ви хочете оцінити Е ( у | х ) . Однак оскільки y є (галасливою) функцією x , розподіл зразків y має залежати від розподілу зразків x для цього конкретного зразка. Вас може не зацікавити "справжній" розподіл x , але вибірковий розподіл y залежить від вибірки x. p(у,х)Е(у|х)ухухх
Dikran Marsupial

2
Розглянемо приклад оцінки температури ( ) як функції широти ( х ). Розподіл значень y у нашому зразку буде залежати від того, де ми обираємо розміщувати метеостанції. Якщо розмістити їх усіх або на полюсах, або на екваторі, тоді ми матимемо бімодальне розподіл. Якщо розмістити їх на регулярній сітці з рівними площами, ми отримаємо одномодальний розподіл значень y , навіть якщо фізика клімату однакова для обох зразків. Звичайно, це вплине на вашу пристосовану регресійну модель, і вивчення такої речі відоме як "коваріатний зсув". HTHухуу
Dikran Marsupial

Я підозрюю також, що обумовлено неявним припущенням, що використовувані дані були зразком iid з оперативного спільного розподілу p ( y , x ) . Е(у|х)p(у,х)
Дікран Марсупіал

100

@DikranMarsupial, безумовно, вірно, звичайно, але мені спало на думку, що було б непогано проілюструвати його думку, тим більше, що ця проблема, як видається, виникає часто. Зокрема, залишки регресійної моделі повинні бути звичайно розподілені, щоб значення p були правильними. Однак, навіть якщо залишки зазвичай розподіляються, це не гарантує, що буде (не те, що це має значення ...); це залежить від розподілу XYХ .

Візьмемо простий приклад (який я складаю). Скажімо, ми перевіряємо препарат на ізольовану систолічну гіпертензію (тобто, число верхнього артеріального тиску зависоке). Далі встановимо, що систолічний bp зазвичай розподіляється в межах нашої групи пацієнтів із середнім значенням 160 & SD 3, і що на кожен мг препарату, який пацієнти приймають щодня, систолічний bp знижується на 1 мм рт. Іншими словами, справжнє значення дорівнює 160, а β 1 - -1, а функція генерування істинних даних така: B P s y s = 160 - 1 × добова дозування ліків + εβ0β1 У нашому вигаданому дослідженні 300 пацієнтів випадково призначено приймати 0 мг (плацебо), 20 мг або 40 мг цього дня. (Зверніть увагу, що X зазвичай не розповсюджується.) Потім, через достатній проміжок часу, коли препарат вступить у дію, наші дані можуть виглядати приблизно так:

БПсус=160-1×добова дозування ліків+εде εN(0,9)
Х

введіть тут опис зображення

(Я стрибав дозування, щоб точки не перекривались так сильно, що їх важко було розрізнити.) Тепер давайте перевіримо розподіли (тобто, це граничне / оригінальне розподіл) та залишки: Y

введіть тут опис зображення

YY , в той час як залишки виглядають так само, як нормальний розподіл має виглядати.

YХp<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

введіть тут опис зображення

Ці результати показують, що все працює добре.

Х YХ


1
Отже, припущення, що залишки, які зазвичай розподіляються, лише для р-значень є правильним? Чому р-значення може піти не так, якщо залишкові значення не є нормальними?
авокадо

3
@loganecolss, це може бути краще як нове запитання. У будь-якому випадку, так, це має робити w / чи значення p є правильним. Якщо ваші залишки достатньо ненормальні, а N - низький, розподіл вибірки буде відрізнятися від теоретичного. Оскільки р-значення - це кількість розподілу вибірки, що перевищує вашу тестову статистику, значення p буде помилковим.
gung

0

ХYХ


3
Граничний розподіл відповіді зовсім не "безглуздий"; це граничне розподіл відповіді (і часто повинно натякати на моделі, відмінні від простої регресії з нормальними помилками). Ви праві, підкреслюючи, що умовні розподіли важливі, коли ми розважаємося над цією моделлю, але це не сприяє існуючим відмінним відповідям.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.