Ще кілька кроків зміщення зміщення - дисперсія
Дійсно, повна деривація рідко дається в підручниках, оскільки вона містить багато алгебри, що не надихає. Ось більш повна деривація з використанням позначень із книги "Елементи статистичного навчання" на сторінці 223
Якщо ми припустимо , що Y=f(X)+ϵ і E[ϵ]=0 і Var(ϵ)=σ2ϵ , то можна отримати вираз для очікуваної помилки прогнозу регресії підгонки F ( X ) на вході X = x 0, використовуючи квадратичну втрату помилокf^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
Для простоти позначень нехай F ( х 0 ) = ф , е ( х 0 ) = е , і нагадаємо , що Е [ е ] = F і Е [ Y ] = фf^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
Для терміна E[(f−f^)2] , ми можемо використовувати подібний трюк , як описано вище, додавання і віднімання E[f^] , щоб отримати
E[(f−f^)2]=E[(f+E[f^]−E[f^]−f^)2]=E[f−E[f^]]2+E[f^−E[f^]]2=[f−E[f^]]2+E[f^−E[f^]]2=Bias2[f^]+Var[f^]
Збираючи його разом
E[(Y−f^)2]=σ2ϵ+Bias2[f^]+Var[f^]
Деякі коментарі про те, чому E[f^Y]=fE[f^]
Взяті з Алекос Пападопулос тут
Нагадаємо , що F є прогностичним ми побудували на основі м точок даних { ( х ( 1 ) , у ( 1 ) ) , . . . , ( Х ( м ) , у ( м ) ) } , тому ми можемо написати F = F м пам'ятати , що.f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m
З іншого боку, Y - це прогноз, який ми робимо на новій точці даних (x(m+1),y(m+1)) , використовуючи модель, побудовану на m точках даних вище. Тож середня помилка у квадраті може бути записана як
E[f^m(x(m+1))−y(m+1)]2
Розширення рівняння з попереднього розділу
E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]
Останню частину рівняння можна розглядати як
E[f^m(x(m+1))⋅ϵ(m+1)]=0
Since we make the following assumptions about the point x(m+1):
- It was not used when constructing f^m
- It is independent of all other observations {(x(1),y(1)),...,(x(m),y(m))}
- It is independent of ϵ(m+1)
Other sources with full derivations