Відповіді:
Лінійна регресія насправді моделює умовні очікувані значення вашого результату. Це означає: якщо ви знали справжні значення параметрів регресії (скажімо та ), значення свого прогноктора X, заповнивши це в рівнянні буде є розрахувати очікуване значення по всім (можливо) спостереження , які мають це задане значення для .β 1 E [ Y | X ] = β 0 + β 1 X Y X
Однак ви дійсно не очікуєте, що жодне значення для даного значення буде точно рівним (умовному) середньому. Не тому, що ваша модель неправильна, а тому, що ви не врахували деякі ефекти (наприклад, помилка вимірювання). Тож ці значення для заданих значень будуть коливатися навколо середнього значення (тобто геометрично: навколо точки лінії регресії для цього ).X Y X X
Припущення про нормальність тепер говорить про те, що різниця між s та їх відповідністю випливає з нормального розподілу із середнім нулем. Це означає, що якщо у вас є значення , ви можете відібрати значення , спочатку обчисливши (тобто знову , точка на лінії регресії), наступну вибірку з цього нормальний розподіл і додавання їх: E [ Y | X ] X Y β 0 + β 1 X E [ Y | X ] ϵ Y ′ = E [ Y | X ] + ϵ
Коротше кажучи: цей звичайний розподіл являє собою мінливість вашого результату поверх змінності, поясненої моделлю.
Примітка: у більшості наборів даних у вас немає декількох значень для будь-якого даного (якщо тільки ваш набір прогнозів не є категоричним), але ця норма стосується всієї сукупності, а не лише для спостережень у вашому наборі даних.X
Примітка: я міркував для лінійної регресії з одним прогноктором, але те ж саме стосується і іншого: просто замініть "рядок" на "гіперплан" у вище.
Це може означати багато, або нічого не може означати. Якщо ви підходите до моделі, щоб отримати найвищий R-Squared, це може означати, що ви були нерозумні. Якщо ви підходите до такої моделі, щоб бути вразливою в тому, що змінні необхідні і потрібні, і піклуєтесь про те, щоб визначити інших людей, тоді ви зробили хорошу роботу. Ознайомтеся з детальніше тут http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
Нормальність залишків - це припущення про виконання лінійної моделі. Отже, якщо ваші залишки є нормальними, це означає, що ваше припущення є дійсним, а висновок моделі (довірчі інтервали, прогнози моделі) також повинні бути дійсними. Це так просто!