Проблема з доведенням умовного очікування як найкращого прогноктора


19

У мене є проблема з доказом

E(Y|X)argming(X)E[(Yg(X))2]

які дуже ймовірно виявляють глибше нерозуміння очікувань та умовних очікувань.

Я знаю, що я знаю, такий доказ (іншу версію цього доказу можна знайти тут )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

Потім доказ зазвичай продовжується аргументом, який показує, що 2E[(YE(Y|X))(E(Y|X)g(X))]=0 , а отже

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

який може бути зведений до мінімуму, коли g(X)=E(Y|X) .

Мої загадки про доказ такі:

  1. Розглянемо

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Мені здається, що незалежно від будь-якого аргументу, що показує, що перший додаток завжди дорівнює нулю, можна побачити, що встановлення g(X)=E(Y|X) мінімізує вираз, оскільки це означає \ big (E (Y | Y | X | X) - g (X) \ big) = 0(E(Y|X)g(X))=0 і звідси

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Але якщо це правда, то можна повторити доказ, замінюючи будь-якою іншою функцією , скажімо, , і дійти висновку, що вираз мінімізує вираз. Тож має бути щось, що я неправильно розумію (правда?).X h ( X ) h ( X )E(Y|X)Xh(X)h(X)

  1. У мене є певні сумніви щодо значення у постановці проблеми. Як слід тлумачити позначення? Чи означає це?E[(Yg(X))2]

E Y [ ( Y - g ( X ) ) 2 ] E X Y [ ( Y - g ( X ) ) 2 ]EX[(Yg(X))2] , або ?EY[(Yg(X))2]EXY[(Yg(X))2]

Відповіді:


11

(Це адаптація Granger & Newbold (1986) "Прогнозування економічних часових рядів").

За побудовою функція вашої вартості помилок - . Це включає критичне припущення (що функція вартості помилок симетрична навколо нуля) - інша функція вартості помилок не обов'язково мала б умовне очікуване значення як її очікуваного значення. Ви не можете мінімізувати функцію вартості помилок, оскільки вона містить невідомі величини. Тому ви вирішили мінімізувати її очікувану цінність. Тоді ваша цільова функція стає аргхв[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

який я вважаю, відповідає і на ваше друге запитання. Це інтуїтивно , що очікуване значення матиме зумовлюють , так як ми намагаємося оцінити / прогноз на основі . Розкладіть квадрат, щоб отриматиX Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Перший термін не містить тому він не впливає на мінімізацію, і його можна ігнорувати. Інтеграл у другому члені дорівнює умовному очікуваному значенню заданому , а інтеграл в останньому члені дорівнює одиниці. ТакY Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

Перша похідна wrt - призводить до умови першого порядку мінімізації тоді як друга похідна дорівнює що достатньо для мінімуму.- 2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X ) 2 > 0g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ДОБАВЛЕННЯ: Логіка підходу "додавання і віднімання" доведення.

ОП спантеличено підходом, викладеним у питанні, оскільки він здається тавтологічним. Це не так, оскільки, використовуючи тактику додавання і віднімання, робить конкретну частину об'єктивної функції нульовою для довільного вибору доданого і відніманого терміна, він НЕ зрівняє значення функції , а саме значення цілі функція оцінюється у кандидата-мінімізатора.

Для вибору маємо функцію значення Для довільного вибору маємо значення функції .V ( E ( Y X ) ) = E [ ( Y - E ( Y X ) ) 2X ]g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]V ( h ( X ) ) = E [ ( Y - h (g(X)=h(X)V(h(X))=E[(Yh(X))2X]

Я це стверджую

E ( Y 2X ) - 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E ( Y X ) ) 2X ]

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

Перший термін LHS та RHS скасовуються. Також зверніть увагу , що зовнішнє очікування умовно на . За властивостями умовних очікувань ми закінчуємоX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

год ( x ) E ( Y X ) E ( Y X )

0[E(YX)h(x)]2
яка дотримується суворої нерівності, якщо . Отже - це глобальний і унікальний мінімізатор.h(x)E(YX)E(YX)

Але це також говорить про те, що підхід "додавання і віднімання" не є найбільш яскравим способом доказування.


Дякую за відповідь Це допомагає з’ясувати моє друге питання. Як я намагався передати в заголовку питання, моє основне питання (перше в дописі) було більше про механізм доказування. Моє основне занепокоєння - це моє розуміння доказів, які я представив у питанні. Як я пояснив, моє розуміння доказу призводить мене до очевидно проблематичного твердження. Тож я хотів би зрозуміти, чи була моя помилка, оскільки це може виявити глибші непорозуміння щодо понять очікування та умовного очікування. Будь-які думки з цього приводу?
Мартін Ван дер Лінден

1
Я додав пояснення щодо підходу "додавання і віднімання" до доказування.
Алекос Пападопулос

Знадобилося трохи часу, щоб зрозуміти це, але я нарешті отримав свою основну помилку: досить правда коли , але аж ніяк не випливає, що мінімізує вираз . Немає причини, за якою виразний текст не міг бути меншим за нуль. Через знак мінус перед можна було знайти деякий такий, що . g ( X ) = h ( X ) - g ( X ) ) g ( X ) E [ -E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0h ( X ) ( Y - h ( X ) ) (g(X)=h(X)h(X)(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
Мартін Ван дер Лінден

1
Гммм ... знак мінус у виразі, на який ви посилаєтесь, є помилкою - це повинен бути знак плюс. Можна, звичайно, потім переставити умови, щоб знову отримати знак мінус ... чи це зашкодить інтуїції, яку ви здобули?
Алекос Пападопулос

Дякуємо, що не відставали від питання. Я відредагував початкове повідомлення, щоб виправити цю помилку. На щастя, я думаю, це не зашкодить набутій інтуїції. Насправді це допомагає мені зрозуміти ще одну помилку: я припускав, що знак мінус важливий, щоб гарантувати, що не обов'язково є мінімальним . Але я усвідомлюю, що мова йде не лише про знак перед 2. (сподіваюся), що мені справді потрібно було зрозуміти, що це взагалі (тобто для довільних ) не потрібно мінімізувати, коли (так?) E [ - 2 ( Y - h ( X ) ) ( h ( X )0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]E [ 2 ( Y - h ( X ) ) ( h ( X ) - g (h(X)g ( X ) = h ( X )E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
Мартін Ван дер Лінден

5

Зауважте, що для підтвердження відповіді вам потрібно лише це показати

E[2(YE(Y|X))(E(Y|X)g(X))]=0

Що стосується того, яке очікування приймати, то сприймаєте це умовно, інакше термін

argming(X)E[(Yg(X))2]

Не має сенсу, оскільки - випадкова величина, якщо - а не . Покажіть, що ви дійсно повинні писати або щоб це було зрозуміло. Тепер, з огляду на це уточнення, термін є постійною, і його можна вивести за межі очікування, і у вас є:E E X Y E Y | X E [ ( Y - g ( X ) ) 2 | X ] E Y | X [ ( Y - g ( X ) )g(X)EEXYEY|XE[(Yg(X))2|X]( E ( Y | X ) - g ( X ) )EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

Отже, ви можете записати цільову функцію як:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

Звідси очевидний мінімізатор. Зауважте, що якщо ви були в середньому і за , то для показу можна використовувати дуже подібний аргумент:X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

Це показує, що якщо встановити для кожного , то ви також маєте мінімізатор над цією функцією. Так що в якомусь - то сенсі це дійсно не має значення чи є або .g(X)=EY|X(Y|X)XEEYXEY|X


3

Існує математична точка зору, яка дуже проста. У вас є проблема проекції в просторі Гільберта, подібно проектуванню вектора в на підпростір.Rn

Нехай позначає нижній простір ймовірностей. Щоб проблема мала сенс, розглянемо випадкові величини з кінцевими секундами, тобто простір Гільберта . Тепер проблема полягає в наступному: задавши , знайдіть проекцію на підпростір , де є -подалгебра , породжений . (Як і у випадку з кінцевими розмірами, мінімізація відстані до підпростору означає пошук проекції). Потрібна проекціяL 2 ( Ω , F , μ ) X , Y L 2 ( Ω , F , μ ) Y(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , за побудовою. (Це фактично характеризує , якщо перевіряти доказ існування).E(X|Y)


Це прекрасна відповідь.
jII

0

Щодо останнього запитання, очікування може бути або wrt (безумовна помилка), або wrt (умовна помилка при кожному значенні ). На щастя, мінімізація умовної помилки при кожному значенні також мінімізує безумовну помилку, тому це не є вирішальним відмінністю.p(x,y)p(yx)X=xX=x

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.