Чому ? (Одна змінна лінійна регресія)


14

Примітка: SST = сума квадратів Всього, = сума помилок у квадраті , і = сума регресії квадратів. Рівняння в заголовку часто записується як:SSESSR

i=1n(yiy¯)2=i=1n(yiy^i)2+i=1n(y^iy¯)2

Досить просте запитання, але я шукаю інтуїтивне пояснення. Інтуїтивно мені здається, що мав би більше сенсу. Наприклад, припустімо, що точка має відповідне значення y_i = 5 і \ hat y_i = 3 , де \ hat y_i - відповідна точка на лінії регресії. Припустимо також, що середнє значення y для набору даних становить \ bar y = 0 . Тоді для цієї конкретної точки i SST = (5-0) ^ 2 = 5 ^ 2 = 25 , тоді як SSE = (5-3) ^ 2 = 2 ^ 2 = 4 і SSR = (3-0) ^ 2 = 3 ^ 2 = 9 . Очевидно, що 9 + 4 <25 . Чи не був би цей результат узагальненим для всього набору даних? Я не розумію.SSTSSE+SSRxiг я = 3 у я ˉ у = 0 S S Т = ( 5 - 0 ) 2 = 5 2 = 25 S S Е = ( 5 - 3 3 - 0 ) 2 = 3 2 =yi=5y^i=3y^iy¯=0SST=(50)2=52=25S SR = (SSE=(53)2=22=4SSR=(30)2=32=99+4<25


Відповіді:


15

Додавання і віднімання дає Отже, нам потрібно показати, що . Напишіть Отже, (a) залишки повинні бути ортогональними до встановлених значень, , і (b) сума встановлених значень повинна бути дорівнює сумі залежної змінної,

i=1n(yiy¯)2=i=1n(yiy^i+y^iy¯)2=i=1n(yiy^i)2+2i=1n(yiy^i)(y^iy¯)+i=1n(y^iy¯)2
i=1n(yiy^i)(y^iy¯)=0
i=1n(yiy^i)(y^iy¯)=i=1n(yiy^i)y^iy¯i=1n(yiy^i)
ei=yiy^ii=1n(yiy^i)y^i=0i=1nyi=i=1ny^i.

Власне, я думаю, що (а) простіше показати в матричній нотації для загальної множинної регресії, окремий випадок якої є окремим випадком: Що стосується (b), похідна від критерію OLS функціонує відносно постійної (значить, вам потрібне одне в регресії, щоб це було правдою!), також нормальним рівнянням, є який можна переставити на Права частина цього рівняння, очевидно, також є , як

eXβ^=(yXβ^)Xβ^=(yX(XX)1Xy)Xβ^=y(XX(XX)1XX)β^=y(XX)β^=0
SSRα^=2i(yiα^β^xi)=0,
iyi=nα^+β^ixi
i=1ny^iy^i=α^+β^xi .

3

(1) Інтуїція, чомуSST=SSR+SSE

Коли ми намагаємось пояснити загальну варіацію Y ( ) однією пояснювальною змінною X, то є рівно два джерела мінливості. По-перше, є мінливість, захоплена X (Sum Square Regression), а по-друге, є мінливість, не захоплена X (помилка квадратних помилок). Отже, (точна рівність).SSTSST=SSR+SSE

(2) Геометрична інтуїція

Перші фотографії див. Тут (особливо третій): https://sites.google.com/site/modernprogramevaluation/variance-and-bias

Частина загальної зміни даних (відстань від точки даних до ) фіксується лінією регресії (відстань від лінії регресії до ) та помилкою (відстань від точки до лінії регресії) ). Не залишається місця, щоб був більшим, ніж .Y¯Y¯SSTSSE+SSR

(3) Проблема з вашою ілюстрацією

Ви не можете дивитися на SSE і SSR точково. Для певної точки залишковий може бути великим, так що з X. виникає більше помилок, ніж пояснювальна потужність. Однак для інших точок залишковий буде малим, так що лінія регресії пояснює велику мінливість. Вони врівноважуються і в кінцевому рахунку . Звичайно, це не суворо, але ви можете знайти докази, як описано вище.SST=SSR+SSE

Також зауважте, що регресія не буде визначена для однієї точки: , і ви бачите, що знаменник буде нульовим, зробивши оцінку невизначеною.b1=(XiX¯)(YiY¯)(XiX¯)2

Сподіваюсь, це допомагає.

- Райан М.


1

Коли перехоплення включено в лінійну регресію (сума залишків дорівнює нулю), .SST=SSE+SSR

довести Просто потрібно довести, що остання частина дорівнює 0: У регресії найменших квадратів сума квадратів помилок зведена до мінімуму.

SST=i=1n(yiy¯)2=i=1n(yiy^i+y^iy¯)2=i=1n(yiy^i)2+2i=1n(yiy^i)(y^iy¯)+i=1n(y^iy¯)2=SSE+SSR+2i=1n(yiy^i)(y^iy¯)
i=1n(yiy^i)(y^iy¯)=i=1n(yiβ0β1xi)(β0+β1xiy¯)=(β0y¯)i=1n(yiβ0β1xi)+β1i=1n(yiβ0β1xi)xi
SSE=i=1n(ei)2=i=1n(yiyi^)2=i=1n(yiβ0β1xi)2
Візьміть часткову похідну SSE щодо та встановіть її на нуль. Отже Візьміть часткову похідну SSE щодо та встановіть її на нуль. Отже Отже, β0
SSEβ0=i=1n2(yiβ0β1xi)1=0
i=1n(yiβ0β1xi)1=0
β1
SSEβ1=i=1n2(yiβ0β1xi)1xi=0
i=1n(yiβ0β1xi)1xi=0
i=1n(yiy^i)(y^iy¯)=(β0y¯)i=1n(yiβ0β1xi)+β1i=1n(yiβ0β1xi)xi=0
SST=SSE+SSR+2i=1n(yiy^i)(y^iy¯)=SSE+SSR


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.