Я трохи розгублений, що таке припущення про лінійну регресію.
Поки я перевірив, чи:
- всі пояснювальні змінні лінійно співвідносяться зі змінною відповіді. (Так було)
- серед пояснювальних змінних була якась колінеарність. (мало колінеарності).
- відстані Кука від точок даних моєї моделі нижче 1 (це так, усі відстані нижче 0,4, тому немає балів впливу).
- залишки зазвичай розподіляються. (це може бути не так)
Але я прочитав наступне:
порушення нормальності часто виникають або тому, що (a) розподіли залежних та / або незалежних змінних самі по собі є суттєво ненормальними, та / або (b) припущення про лінійність порушено.
Запитання 1. Це звучить так, ніби незалежні та залежні змінні потрібно нормально розподіляти, але, наскільки я знаю, це не так. Моя залежна змінна, а також одна з моїх незалежних змінних зазвичай не розподіляються. Чи повинні вони бути?
Питання 2 Мій QQнормальний сюжет залишків виглядає приблизно так:
Це трохи відрізняється від нормального розподілу, а shapiro.test
також відкидає нульову гіпотезу про те, що залишки є від нормального розподілу:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Залишкові та встановлені значення виглядають так:
Що я можу зробити, якщо мої залишки не розповсюджуються нормально? Чи означає, що лінійна модель цілком марна?