Регресійний аналіз дає відповідь на питання: "Яке значення середнього значення Y для тих, хто дав значення X?" або, що рівно, "На скільки прогнозується Y зміниться НА СЕРЕДНЕ, якщо ми змінимо X на одну одиницю?" Випадкова похибка вимірювання не змінює середні значення змінної або середні значення для підмножини індивідів, тому випадкова помилка залежної змінної не буде оцінювати регресійні оцінки.
Скажімо, у вас є дані про висоту на вибірці особин. Ці висоти дуже точно виміряні, точно відображають справжній ріст кожного. У межах вибірки середнє значення для чоловіків становить 175 см, а середнє для жінок - 162 див. Якщо ви використовуєте регресію для обчислення того, наскільки ґендер прогнозує висоту, ви оцінюєте модель
HEIGHT=CONSTANT+β∗GENDER+RESIDUAL
Якщо жінки кодуються як 0, а чоловіки - 1, - середня жінка, або 162 см. Коефіцієнт регресії показує, наскільки змінюється висота НА СЕРЦІ, коли ви змінюєте на одну одиницю (від 0 до 1). дорівнює 13, тому що серед людей, значення яких для дорівнює 0 (жінки), середній зріст становить 162 см, тоді як люди, значення для - 1 (чоловіки), мають середній зріст 175 " см; оцінює середню різницю між чоловічими та жіночими висотами, що становить 13 див. ( відображає різницю між статтю у висоті.)CONSTANTβGENDERβGENDERGENDERβRESIDUAL
Тепер, якщо довільно додати -1 см або +1 см до справжнього зросту кожного, що буде? Особи, фактичний зріст яких, скажімо, становить 170 см, тепер будуть повідомлятися про 169 або 171 см. Однак середнє значення для вибірки чи будь-якої підпроби не зміниться. Ті, чий фактичний зріст становить 170 см, становитимуть в середньому 170 см у новому, помилковому наборі даних, жінки в середньому становлять 162 см і т. Д. Якщо ви будете повторно вказати вище регресійну модель, використовуючи цей новий набір даних, (очікуване) значення не зміниться, оскільки середня різниця між чоловіками та жінками все ще становить 13 см, незалежно від похибки вимірювання. (Стандартна помилка буде більшою, ніж раніше, тому що дисперсія залежної змінної тепер більша.)ββ
Якщо в незалежній змінній є помилка вимірювання, а не залежна змінна, буде упередженою оцінкою. Це легко зрозуміти, якщо розглядати приклад висоти. Якщо у змінній є випадкова помилка вимірювання , деякі чоловіки будуть помилково кодовані як жінки та навпаки. Ефект цього полягає у зменшенні очевидних статевих різниць у зрості, оскільки переміщення самців до жіночої групи зробить жіночу середню більшою, тоді як переміщення жінок до чоловічої групи зробить середнього віку чоловіка меншим. З похибкою вимірювання в незалежній змінній буде нижчою, ніж неупереджене значення на 13 див.βGENDERβ
Хоча я тут використовував категоричну незалежну змінну ( ) для простоти, та ж логіка застосовується до безперервних змінних. Наприклад, якщо ви використовували суцільну змінну, наприклад висоту народження, для прогнозування росту дорослого, очікуване значення буде однаковим, незалежно від кількості випадкових помилок у вимірах висоти дорослих.GENDERβ