Припущення лінійних моделей і що робити, якщо залишки нормально не розподілені


22

Я трохи розгублений, що таке припущення про лінійну регресію.

Поки я перевірив, чи:

  • всі пояснювальні змінні лінійно співвідносяться зі змінною відповіді. (Так було)
  • серед пояснювальних змінних була якась колінеарність. (мало колінеарності).
  • відстані Кука від точок даних моєї моделі нижче 1 (це так, усі відстані нижче 0,4, тому немає балів впливу).
  • залишки зазвичай розподіляються. (це може бути не так)

Але я прочитав наступне:

порушення нормальності часто виникають або тому, що (a) розподіли залежних та / або незалежних змінних самі по собі є суттєво ненормальними, та / або (b) припущення про лінійність порушено.

Запитання 1. Це звучить так, ніби незалежні та залежні змінні потрібно нормально розподіляти, але, наскільки я знаю, це не так. Моя залежна змінна, а також одна з моїх незалежних змінних зазвичай не розподіляються. Чи повинні вони бути?

Питання 2 Мій QQнормальний сюжет залишків виглядає приблизно так:

перевірка нормальності залишків

Це трохи відрізняється від нормального розподілу, а shapiro.testтакож відкидає нульову гіпотезу про те, що залишки є від нормального розподілу:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Залишкові та встановлені значення виглядають так:

залишки проти встановленого

Що я можу зробити, якщо мої залишки не розповсюджуються нормально? Чи означає, що лінійна модель цілком марна?


3
Ваші залишки та пристосований графік дозволяють припустити, що залежна змінна має нижню межу. Це може призвести до відображення моделей. Це може дати вам вказівки на альтернативні моделі, які ви могли б розглянути.
Maarten Buis

Відповіді:


25

По-перше, я б придбав собі копію цієї класичної та доступної статті та прочитав її: Anscombe FJ. (1973) Графіки статистичного аналізу Американський статистик . 27: 17–21.

Ваші запитання:

Відповідь 1: Ні залежна, ні незалежна змінна не повинні нормально розподілятися. Насправді вони можуть мати всілякі петлеві розподіли. Нормальність припущення відноситься до розподілу помилок ( YiY^i ).

Відповідь 2: Ви насправді запитуєте про два окремих припущення про регресію найменших звичайних квадратів (OLS):

  1. Одне - припущення про лінійність . Це означає, що зв’язок між Y і X виражається прямою лінією (Право? Пряма спина до алгебри: y=a+bx , де a - y -перехоплення, а b - нахил лінії.) Порушення такого припущення просто означає, що співвідношення недостатньо добре описане прямою лінією (наприклад, Y - синусоїдальна функція XYXXYX+X2YX+max(Xθ,0)θYX

  2. Інше - припущення щодо нормально розподілених залишків. Іноді можна дійсно піти з ненормальними залишками в контексті OLS; див., наприклад, Lumley T, Emerson S. (2002) Важливість припущення про нормальність у великих наборах даних про охорону здоров'я . Щорічний огляд охорони здоров'я . 23: 151–69. Іноді цього неможливо (знову ж див. Статтю Anscombe).

Однак я б рекомендував думати про припущення в OLS не стільки як бажані властивості ваших даних, скільки як цікаві точки відправлення для опису природи. Зрештою, більшість із того, що нас хвилює у світі, цікавіше, ніж -перехоплення та нахил. Творче порушення припущень OLS (за допомогою відповідних методів) дозволяє нам задавати і відповідати на більш цікаві запитання.y


2
Спасибі! У слайдах деякого курсу статистики йдеться про те, що якщо припущення провалюються, ви можете спробувати перетворити Y або перетворити пояснювальні змінні. Коли я перетворюю Y, роблячи, наприклад, lm (Y ^ 0,3 ~ + X1 + X2 + ...), мої залишки стають нормально розподіленими. Це дійсна справа?
Стефан

@Stefan Так! Трансформація відповіді часто буває хорошою справою log, і прості силові перетворення є загальними.
Грегор --реставрувати Моніку--

@Stefan Можливо, може, й ні. Якщо ви трансформуєте свій результат, то ваші умовиводи, засновані на трансформованих відносинах, не обов'язково застосовуються до зворотних перетворень після того, як ви виконали аналіз; це тому, що . Отже, якщо аналізувати , знаходження значущої не обов'язково переводиться на значне , а також CI обов'язково не відповідає .Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
Олексій

@Alexis: Чому на цих сторінках написано, що змінні повинні нормально поширюватися? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010

7
@ stackoverflowuser2010 Тому що вони не знають, про що говорять? Припущення вбудовано прямо в математичний формалізм : де . Зауважте, що остання частина: це залишки, а не змінні, які поширюються нормально. Подивіться: (1) моделюйте X за допомогою рівномірного розподілу від, о, скажімо, 0 до 100; (2) моделювати ; (3) регресувати на і відновити . Потім подивіться на гістограми іε N ( 0 , σ ) Y = 3 + 0,5 × X + N ( 0 , 1 ) Y X β 03 , β X0,5 X YY=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY .
Олексій

11

Ваші перші проблеми

  • незважаючи на ваші запевнення, залишковий графік показує, що умовно-очікувана відповідь не є лінійною у встановлених значеннях; модель середнього значення неправильна.

  • у вас немає постійної дисперсії. Модель для дисперсії неправильна.

Ви навіть не можете оцінити нормальність цих проблем.


Розкажіть, будь ласка, про те, як ви зробили висновок про лінійність, переглянувши сюжети? Я розумію, що припущення гомоскедастичності тут не виконується.
Д-р Ніша Арора

y^y^=3060 < 0 0 - 30 30 - 60 > 60060<00303060>60
Glen_b -Встановіть Моніку

У середній половині майже всі залишки є негативними, у зовнішніх частинах майже всі залишки - позитивними. Це не те, як виглядають випадкові залишки.
Glen_b -Встановіть Моніку

Дякую, @Glen_b. Після тривалого розриву я переглядаю свої концепції, тому не можна було візуалізувати спочатку.
Д-р Ніша Арора

Хоча тут не так вже й багато, я думаю, що вихідні дані є негативними, і або узагальнена лінійна модель (можливо, гамма з log-посиланням), або перетворення (можливо, перетворення журналу) було б більш підходящим вибором .
Glen_b -Встановіть Моніку

3

Я б не сказав, що лінійна модель є абсолютно марною. Однак це означає, що ваша модель неправильно / повністю не пояснює ваші дані. Є частина, де ви повинні вирішити, модель «достатньо хороша» чи ні.

Для вашого першого питання я не думаю, що лінійна регресійна модель передбачає, що ваші залежні та незалежні змінні повинні бути нормальними. Однак існує припущення про нормальність залишків.

Що стосується вашого другого питання, ви можете розглянути дві різні речі:

  1. Перевірте різні типи моделей. Інша модель може бути краще пояснити ваші дані (наприклад, нелінійна регресія тощо). Вам все одно доведеться перевірити, чи припущення цієї "нової моделі" не порушені.
  2. Ваші дані можуть містити недостатньо коваріатів (залежних змінних), щоб пояснити відповідь (результат). У цьому випадку ви більше нічого не можете зробити. Іноді ми можемо прийняти перевірити, чи залишаються залишки за різними розподілами (наприклад, t-розподілом), але, здається, це не так у вас.

Окрім вашого запитання, я бачу, що ваш QQPlot не "нормалізований". Зазвичай простіше подивитися на сюжет, коли ваші залишки стандартизовані, див. Stdres .

stdres(lmobject)

Сподіваюся, це допоможе тобі, можливо, хтось інший пояснить це краще, ніж я.


0

На додаток до попередньої відповіді, я хотів би додати деякі моменти, щоб покращити вашу модель:

  1. Іноді ненормальність залишків вказує на присутність людей, що переживають. Якщо це так, спершу зверніться до випускників.

  2. Можливо, за допомогою деяких перетворень вирішити мету.

  3. Крім того, для боротьби з багатоколінійністю ви можете посилатись на https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearies_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution


-1

Що стосується вашого другого запитання,

Щось зі мною трапилося на практиці, це те, що я доповнював свою відповідь багатьма незалежними змінними. У переоснащеній моделі у мене були не нормальні залишки. Незважаючи на те, результати констатували, що не було достатньо доказів, які б відмовились від того, що деякі коефіцієнти дорівнювали нулю (з р-значеннями, що перевищують 0,2). Отже, у другій моделі, відхиляючи змінні після зворотної процедури відбору, я отримав нормальні залишки, затверджені як графічно за допомогою qqplot, так і шляхом тестування гіпотезу за допомогою тесту Шапіро-Вілка. Перевірте, чи це може бути ваш випадок.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.