Що означають нормальні залишки і що це говорить про мої дані?


13

Досить основне питання:

Що означає нормальний розподіл залишків від лінійної регресії? З точки зору, як це відображається на моїх оригінальних даних регресії?

Я повністю спотикався, дякую хлопці

Відповіді:


5

Лінійна регресія насправді моделює умовні очікувані значення вашого результату. Це означає: якщо ви знали справжні значення параметрів регресії (скажімо та ), значення свого прогноктора X, заповнивши це в рівнянні буде є розрахувати очікуване значення по всім (можливо) спостереження , які мають це задане значення для .β 1 E [ Y | X ] = β 0 + β 1 X Y Xβ0β1

E[Y|X]=β0+β1X
YX

Однак ви дійсно не очікуєте, що жодне значення для даного значення буде точно рівним (умовному) середньому. Не тому, що ваша модель неправильна, а тому, що ви не врахували деякі ефекти (наприклад, помилка вимірювання). Тож ці значення для заданих значень будуть коливатися навколо середнього значення (тобто геометрично: навколо точки лінії регресії для цього ).X Y X XYXYXX

Припущення про нормальність тепер говорить про те, що різниця між s та їх відповідністю випливає з нормального розподілу із середнім нулем. Це означає, що якщо у вас є значення , ви можете відібрати значення , спочатку обчисливши (тобто знову , точка на лінії регресії), наступну вибірку з цього нормальний розподіл і додавання їх: E [ Y | X ] X Y β 0 + β 1 X E [ Y | X ] ϵ Y = E [ Y | X ] + ϵYE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

Коротше кажучи: цей звичайний розподіл являє собою мінливість вашого результату поверх змінності, поясненої моделлю.

Примітка: у більшості наборів даних у вас немає декількох значень для будь-якого даного (якщо тільки ваш набір прогнозів не є категоричним), але ця норма стосується всієї сукупності, а не лише для спостережень у вашому наборі даних.XYX

Примітка: я міркував для лінійної регресії з одним прогноктором, але те ж саме стосується і іншого: просто замініть "рядок" на "гіперплан" у вище.


Це чудове пояснення! Хоча одне питання: якщо звичайно розподіляється, означає, що ви припускаєте, що найбільш ймовірні значення для e становлять від -1 до +1 (після того, як вони були стандартизовані)? Отже, ви в основному використовуєте звичайний розподіл замість, скажімо, розподілу пуассона, тому що нормальний розподіл краще моделює, як ці значення поводяться в реальному житті?
користувач3813234

1

Це може означати багато, або нічого не може означати. Якщо ви підходите до моделі, щоб отримати найвищий R-Squared, це може означати, що ви були нерозумні. Якщо ви підходите до такої моделі, щоб бути вразливою в тому, що змінні необхідні і потрібні, і піклуєтесь про те, щоб визначити інших людей, тоді ви зробили хорошу роботу. Ознайомтеся з детальніше тут http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175


0

Нормальність залишків - це припущення про виконання лінійної моделі. Отже, якщо ваші залишки є нормальними, це означає, що ваше припущення є дійсним, а висновок моделі (довірчі інтервали, прогнози моделі) також повинні бути дійсними. Це так просто!


Припущення про нормальність стосується непомітної помилки (звідси необхідність припущення), а не щодо залишків, що спостерігаються.
DL Dahly

2
Так, але ви використовуєте залишки, щоб перевірити своє припущення про непомітну помилку.
wcampbell

Я не згоден, що нормальні залишки гарантують дійсну модель регресії. Припустимо, у вас є кругла модель Гаусса з похибкою X і Y, які рівні. Тоді інтервал довіри лінії регресії дорівнює . Це навряд чи єдиний зустрічний приклад, їх набагато більше.  to 
Карл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.