Розуміння похідного відхилення відхилення від дисперсії


20

Я читаю розділ компрометації дисперсії Елементи статистичного навчання, і я сумніваюся у формулі на сторінці 29. Нехай дані виникають із такої моделі, що

Y=f(х)+ϵ
де - випадкове число з очікуваним значенням та варіацією . Нехай очікуване значення похибки моделі - де - передбачення нашого учня. Згідно з книгою, помилка є epsi ; = Е [ & epsi ; ] = 0ϵϵ^=E[ϵ]=0E[(ϵϵ^)2]=E[ϵ2]=σ2
E[(Yfk(x))2]
fk(x)х
Е[(Y-fк(х))2]=σ2+Бiас(fк)2+Vаr(fк(х)).

Моє запитання, чому термін зміщення не дорівнює 0? розвиваючи формулу помилки, я бачу

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=Var(fk(x))+2E[(f(x)fk(x))ϵ]+σ2

як - незалежне випадкове число2 E [ ( f ( x ) - f k ( x ) ) ϵ ] = 2 E [ ( f ( x ) - f k ( x ) ) ] E [ ϵ ] = 0ϵ2E[(f(x)fk(x))ϵ]=2E[(f(x)fk(x))]E[ϵ]=0

Де я помиляюся?

Відповіді:


20

Ви не помиляєтеся, але ви помилилися за один крок, оскільки . - .E [ ( f ( x ) - f k ( x ) ) 2 ] MSE ( f k ( x ) ) = V a r ( f k ( x )E[(f(x)fk(x))2]Var(fk(x))E[(f(x)fk(x))2]MSE(fk(x))=Var(fk(x))+Bias2(fk(x))

E[(Yfk(x))2]=E[(f(x)+ϵfk(x))2]=E[(f(x)fk(x))2]+2E[(f(x)fk(x))ϵ]+E[ϵ2]=E[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2=Var(fk(x))+Bias2(fk(x))+σ2.

Примітка:E[(fk(x)E(fk(x)))(f(x)E(fk(x))]=E[fk(x)E(fk(x))](f(x)E(fk(x)))=0.


У разі бінарних результатів Чи існує еквівалентний доказ з перехресною ентропією як міра помилки?
emanuele

1
З двійковим відгуком це не дуже добре. Див. Вихід 7.2 у другому виданні "Елементи статистичного навчання".
Метью Друрі

3
ви могли б пояснити, як ви йдете від до VE[(f(x)E(fk(x))+E(fk(x))fk(x))2]+2E[(f(x)fk(x))ϵ]+σ2 ? Var(fk(x))+Bias2(fk(x))+σ2
Антуан

16

Ще кілька кроків зміщення зміщення - дисперсія

Дійсно, повна деривація рідко дається в підручниках, оскільки вона містить багато алгебри, що не надихає. Ось більш повна деривація з використанням позначень із книги "Елементи статистичного навчання" на сторінці 223


Якщо ми припустимо , що Y=f(X)+ϵ і E[ϵ]=0 і Var(ϵ)=σϵ2 , то можна отримати вираз для очікуваної помилки прогнозу регресії підгонки F ( X ) на вході X = x 0, використовуючи квадратичну втрату помилокf^(X)X=x0

Err(x0)=E[(Yf^(x0))2|X=x0]

Для простоти позначень нехай F ( х 0 ) = ф , е ( х 0 ) = е , і нагадаємо , що Е [ е ] = F і Е [ Y ] = фf^(x0)=f^f(x0)=fE[f]=fE[Y]=f

E[(Yf^)2]=E[(Yf+ff^)2]=E[(yf)2]+E[(ff^)2]+2E[(ff^)(yf)]=E[(f+ϵf)2]+E[(ff^)2]+2E[fYf2f^Y+f^f]=E[ϵ2]+E[(ff^)2]+2(f2f2fE[f^]+fE[f^])=σϵ2+E[(ff^)2]+0

Для терміна E[(ff^)2] , ми можемо використовувати подібний трюк , як описано вище, додавання і віднімання E[f^] , щоб отримати

E[(ff^)2]=E[(f+E[f^]E[f^]f^)2]=E[fE[f^]]2+E[f^E[f^]]2=[fE[f^]]2+E[f^E[f^]]2=Bias2[f^]+Var[f^]

Збираючи його разом

E[(Yf^)2]=σϵ2+Bias2[f^]+Var[f^]


Деякі коментарі про те, чому E[f^Y]=fE[f^]

Взяті з Алекос Пападопулос тут

Нагадаємо , що F є прогностичним ми побудували на основі м точок даних { ( х ( 1 ) , у ( 1 ) ) , . . . , ( Х ( м ) , у ( м ) ) } , тому ми можемо написати F = F м пам'ятати , що.f^m{(x(1),y(1)),...,(x(m),y(m))}f^=f^m

З іншого боку, Y - це прогноз, який ми робимо на новій точці даних (x(m+1),y(m+1)) , використовуючи модель, побудовану на m точках даних вище. Тож середня помилка у квадраті може бути записана як

E[f^m(x(m+1))y(m+1)]2

Розширення рівняння з попереднього розділу

E[f^mY]=E[f^m(f+ϵ)]=E[f^mf+f^mϵ]=E[f^mf]+E[f^mϵ]

Останню частину рівняння можна розглядати як

E[f^m(x(m+1))ϵ(m+1)]=0

Since we make the following assumptions about the point x(m+1):

  • It was not used when constructing f^m
  • It is independent of all other observations {(x(1),y(1)),...,(x(m),y(m))}
  • It is independent of ϵ(m+1)

Other sources with full derivations


1
Чому? Е[f^Y]=fЕ[f^]? Я не думаюY і f^ є незалежними, оскільки f^ по суті побудований з використанням Y.
Феліпе Перес

5
Але питання по суті те саме, чому Е[f^ϵ]=0? Випадковістьf^ походить від помилки ϵ тому я не бачу, чому б це зробити f^ і ϵ бути незалежним, а значить, Е(f^ϵ)=0.
Феліпе Перес

З вашої точності здається, що вибір у вибірці проти вибірки є надзвичайно важливим. Це так? Якщо ми працюємо лише за зразком, то, дивϵ як залишкові відхилення відхилення відхилення зникають?
markowitz

1
@ FelipePérez, наскільки я розумію, випадковість f^ походить від розбивки на випробування поїздів (які бали опинилися в тренувальному наборі та дали f^як підготовлений прогноз). Іншими словами, дисперсіяf^походить з усіх можливих підмножин даного фіксованого набору даних, які ми можемо взяти за навчальний набір. Оскільки набір даних фіксований, випадковості від цього не виникаєϵ і тому f^ і ϵ є незалежними.
Альберто Сантіні
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.