(Це адаптація Granger & Newbold (1986) "Прогнозування економічних часових рядів").
За побудовою функція вашої вартості помилок - . Це включає критичне припущення (що функція вартості помилок симетрична навколо нуля) - інша функція вартості помилок не обов'язково мала б умовне очікуване значення як її очікуваного значення. Ви не можете мінімізувати функцію вартості помилок, оскільки вона містить невідомі величини. Тому ви вирішили мінімізувати її очікувану цінність. Тоді ваша цільова функція стає аргхв[Y−g(X)]2argmin
Е[ Y- г( X) ]2= ∫∞- ∞[ у- г( X) ]2fY| Х( у| x)dу
який я вважаю, відповідає і на ваше друге запитання. Це інтуїтивно , що очікуване значення матиме зумовлюють , так як ми намагаємося оцінити / прогноз на основі . Розкладіть квадрат, щоб отриматиX Y XYХYХ
Е[ Y- г( X) ]2= ∫∞- ∞у2fY| Х( у| x)dу- 2 гр( X) ∫∞- ∞уfY| Х( у| x)dу+ [ г( X) ]2∫∞- ∞fY| Х( у| x)dу
Перший термін не містить тому він не впливає на мінімізацію, і його можна ігнорувати. Інтеграл у другому члені дорівнює умовному очікуваному значенню заданому , а інтеграл в останньому члені дорівнює одиниці. ТакY Xг( X)YХ
аргхвг( х )Е[ Y- г( X) ]2= аргхвг( х ){ -2гр( X) Е( Y∣ X) + [ г( X) ]2}
Перша похідна wrt - призводить до умови першого порядку мінімізації тоді як друга похідна дорівнює що достатньо для мінімуму.- 2 E ( Y ∣ X ) + 2 g ( X ) g ( X ) = E ( Y ∣ X ) 2 > 0г( X)- 2 Е( Y∣ X) + 2g( X)г( X) = Е( Y∣ X)2 > 0
ДОБАВЛЕННЯ: Логіка підходу "додавання і віднімання" доведення.
ОП спантеличено підходом, викладеним у питанні, оскільки він здається тавтологічним. Це не так, оскільки, використовуючи тактику додавання і віднімання, робить конкретну частину об'єктивної функції нульовою для довільного вибору доданого і відніманого терміна, він НЕ зрівняє значення функції , а саме значення цілі функція оцінюється у кандидата-мінімізатора.
Для вибору маємо функцію значення
Для довільного вибору маємо значення функції .V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ]г( X) = Е( Y∣ X)V( Є( Y∣ X) ) = Е[ (Y- Е( Y∣ X) )2∣ X]V ( h ( X ) ) = E [ ( Y - h (г( X) = h ( X)V( год ( X)) ) = Е[ (Y- ч ( Х.)) )2∣ X]
Я це стверджую
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V(E(Y∣X) ) ≤V( год (X) )
⇒E( Y2∣X) - 2 Е[ (YЕ(Y∣X) ) ∣ X] +Е[ (E(Y∣X) )2∣ X]≤E( Y2∣X) - 2 Е[ (Yгод (X) ) ∣ X] +Е[ (год(X)) )2∣ X]
Перший термін LHS та RHS скасовуються. Також зверніть увагу , що зовнішнє очікування умовно на . За властивостями умовних очікувань ми закінчуємоХ
. . . ⇒ - 2 Е( Y∣ X) ⋅ Е( Y∣ X) + [ Е( Y∣ X) ]2≤ - 2 E( Y∣ X) h ( X) + [ год ( X) ]2
⇒ 0 ≤ [ E( Y∣ X) ]2- 2 Е( Y∣ X) h ( X) + [ год ( X) ]2
год ( x ) ≠ E ( Y ∣ X ) E ( Y ∣ X )
⇒ 0 ≤ [ E( Y∣ X) - h ( x ) ]2
яка дотримується суворої нерівності, якщо . Отже - це глобальний і унікальний мінімізатор.
h ( x ) ≠ E( Y∣ X)Е( Y∣ X)
Але це також говорить про те, що підхід "додавання і віднімання" не є найбільш яскравим способом доказування.