Очікувана помилка передбачення - виведення


20

Я намагаюся зрозуміти виведення очікуваної помилки прогнозування нижче (ESL), особливо щодо виведення 2,11 та 2,12 (обумовлення, крок до точкового мінімуму). Будь-які вказівки чи посилання високо оцінені.

Нижче я повідомляю витяг із ESL pg. 18. Перші два рівняння - це, по порядку, рівняння 2.11 та 2.12.


Нехай XRp позначає реальний значущий випадковий вектор вхідного сигналу, а YR - реальну величину випадкової величини виходу з спільним розподілом Pr(X,Y) . Будемо шукати функцію f(X) для прогнозування Y заданих значень вхідного X . Ця теорія вимагає функції втрати L(Y,f(X)) для покарання помилок у прогнозуванні, і, безумовно, найбільш поширеною і зручною є втрата помилок у квадраті :L(Y,f(X))=(Yf(X))2 . Це призводить нас до критерію виборуf ,

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

очікувана помилка передбачення (у квадраті). Умовивши X , ми можемо записати EPE як

EPE(f)=EXEY|X([Yf(X)]2|X)

і ми бачимо, що досить мінімізувати точку зору EPE:

f(x)=argmincEY|X([Yc]2|X)

Рішення є

f(x)=E(Y|X=x)

умовне очікування, відоме також як функція регресії .


Зміна і Y у першому рівнянні статті Вікіпедії про закон загального очікування дає еквівалентність (2.9) та (2.11). Прочитайте цю статтю для доказів. (2.12) негайно, розуміючи, що f слід вибирати з метою мінімізації EPE. XYf
whuber


2
Для тих, хто також читає цю книгу, ознайомтеся з цими вичерпними записками Weathermax та Epstein
Dodgie

@Dodgie Це посилання загинуло: (
Меттью Друрі

2
@MatthewDrury На щастя, гугл "Weathermax та статистики Епштейна" повернув посилання як перший результат;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/…
Dodgie

Відповіді:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
Я розумію, що ви написали, але чи вважаєте ви, що якщо ОП заплутався у виведенні, зазначеному у запитанні, він зрозуміє вашу відповідь? Звичайно, я вже зрозумів деривацію, показану в питанні.
Марк Л. Стоун

Я потрапив сюди з google з тим же запитанням і фактично вважаю це виведення саме тим, що мені потрібно.
напівколонки та клейка стрічка

1
@ MarkL.Stone - це може бути дурним питанням, але ви могли б пояснити, що розуміється під і як це стає p ( x , y ) d x d y ? Дякую купуPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte

1
Мається на увазі перше - друге. Я думаю, що звичайніше використовувати натомість dP (x, y) або dF (x, y). У 1D ви часто будете бачити, що dF (x) означає f (x) dx, де f (x) - функція густини ймовірності, але позначення також може враховувати дискретну функцію маси ймовірностей (у підсумовуванні) або навіть суміш безперервна щільність і дискретна маса ймовірностей.
Марк Л. Стоун

EX(EY|X([Yf(X)]2|X=x)) ?
D1X

11

The equation (2.11) is a consequence of the following little equality. For any two random variables Z1 and Z2, and any function g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

The notation EZ1,Z2 is the expectation over the joint distribution. The notation EZ1Z2 essentially says "integrate over the conditional distribution of Z1 as if Z2 was fixed".

It's easy to verify this in the case that Z1 and Z2 are discrete random variables by just unwinding the definitions involved

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

The continuous case can either be viewed informally as a limit of this argument, or formally verified once all the measure theoretic do-dads are in place.

To unwind the application, take Z1=Y, Z2=X, and g(x,y)=(yf(x))2. Everything lines up exactly.

The assertion (2.12) asks us to consider minimizing

EXEYX(Yf(X))2

where we are free to choose f as we wish. Again, focusing on the discrete case, and dropping halfway into the unwinding above, we see that we are minimizing

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

Everything inside the big parenthesis is non-negative, and you can minimize a sum of non-negative quantities by minimizing the summands individually. In context, this means that we can choose f to minimize

y(yf(x))2Pr(Y=yX=x)

individually for each discrete value of x. This is exactly the content of what ESL is claiming, only with fancier notation.


8

I find some parts in this book express in a way that is difficult to understand, especially for those who do not have a strong background in statistics.

I will try to make it simple and hope that you can get rid of confusion.

Claim 1 (Smoothing) E(X)=E(E(X|Y)),X,Y

Proof: Notice that E(Y) is a constant but E(Y|X) is a random variable depending on X.

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

Claim 2: E(Yf(X))2E(YE(Y|X))2,f

Proof:

E((Yf(X))2|X)=E(([YE(Y|X)]+[E(Y|X)f(X)])2|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2E((YE(Y|X))(E(Y|X)f(X))|X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X)+2(E(Y|X)f(X))E(YE(Y|X))|X)( since E(Y|X)f(X) is constant given X)=E((YE(Y|X))2|X)+E((E(Y|X)f(X))2|X) ( use Claim 1 )E((YE(Y|X))2|X)

Taking expectation both sides of the above equation give Claim 2 (Q.E.D)

Therefore, the optimal f is f(X)=E(Y|X)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.