Прийом очікувань серії Тейлора (особливо решти)


42

Моє запитання стосується спроби обгрунтувати широко використовуваний метод, а саме прийняття очікуваного значення серії Тейлора. Припустимо, у нас є випадкова величина з додатним середнім та дисперсією . Крім того, у нас є функція, скажімо, .Xμσ2log(x)

Роблячи розширення Тейлора навколо середнього значення, отримуємо де, як завжди, - st.logX

logX=logμ+Xμμ12(Xμ)2μ2+13(Xμ)3ξX3,
ξX|ξXμ|<|Xμ|

Якщо ми сподіваємось, ми отримаємо приблизне рівняння, яке люди зазвичай називають чимось самоочевидним (див. Знак у першому рівнянні тут)E log X log μ - 1 :

ElogXlogμ12σ2μ2

ПИТАННЯ : Мене цікавить, як довести, що очікуване значення залишку терміну насправді незначне, тобто (або, іншими словами, ).

E[(Xμ)3ξX3]=o(σ2)
E[o(Xμ)2]=o(E[(Xμ)2])

Що я намагався зробити : припускаючи, що (що, в свою чергу, означає в ), я намагався розділити інтеграл на два, оточуючи з деякими -vicinity : σ20XμPμεNε

Rp(x)(xμ)3ξx3dx=xNεdx+xNεdx

Перший може бути обмежений через те, що і, таким чином, не турбує. Але з другим маємо два суперечливі факти: з одного боку (як ). Але з іншого боку, ми не знаємо, що робити з . 1 / ξ 3 P ( | X - μ | > ε ) 0 σ 20 1 / ξ 30Nε1/ξ3

P(|Xμ|>ε)0
σ201/ξ3

Іншою можливістю може бути спробувати використовувати лему Фато, але я не можу зрозуміти, як це зробити.

Будемо вдячні за будь-яку допомогу чи підказку. Я розумію, що це свого роду дуже технічне питання, але мені потрібно пройти його, щоб довіряти цьому методу "очікування Тейлора". Дякую!

PS Я перевірив тут , але, здається, це трохи іншого.


Чому перед третім терміном розширення Тейлора є знак мінус? Також чому в четвертому терміні є а не? Що я пропускаю? 3 !33!
Алекос Пападопулос

@Alecos: Подивіться яту похідну . Це відповість на обидва ваші запитання. log xnlogx
кардинал

4
(+1) Це питання нещодавно з'явилося в обговоренні двох питань, пов'язаних з пошуком моментів . Слід додатково дбати про такі питання. :-)X1
кардинал

1
Наближення першого порядку може бути фактично кращим в деяких випадках через теорему про середнє значення. Не впевнений, чи допоможе теорема середнього значення в загальному випадку.
ймовірністьлогічний

1
Я б міг подумати, що теорема домінуючої домінанти тут може бути корисною, оскільки рівняння є взаємозаміною меж та інтеграції. E(o(..))=o(E(..))
ймовірністьлогічний

Відповіді:


32

Ви праві скептично ставитися до такого підходу. Метод серії Тейлора взагалі не працює, хоча евристичний містить ядро ​​істини. Щоб узагальнити технічну дискусію нижче,

  • Сильна концентрація означає, що метод серії Тейлора працює для приємних функцій
  • Речі можуть і можуть піти не так, як для важких дистрибутивів чи не дуже приємних функцій

Як свідчить відповідь Алекоса, це говорить про те, що метод серії Тейлора повинен бути списаний, якщо ваші дані можуть мати важкі хвости. (Фінансисти, я на тебе дивлюся.)

Як зазначив Елвіс, ключова проблема полягає в тому, що дисперсія не контролює більш високі моменти . Щоб зрозуміти, чому, давайте максимально спростимо ваше запитання, щоб перейти до основної ідеї.

Припустимо, у нас є послідовність випадкових змінних з як . σ ( X n ) 0 n Xnσ(Xn)0n

З: Чи можемо ми гарантувати, що якn ?E[|Xnμ|3]=o(σ2(Xn))n?

Оскільки існують випадкові величини з кінцевими другими моментами та нескінченними третіми моментами, відповідь наголошується « ні» . Тому загалом метод серії Тейлора не вдається навіть для поліномів 3-го ступеня . Ітерація цього аргументу показує, що ви не можете очікувати, що метод серії Тейлора дасть точні результати навіть для поліномів, якщо всі моменти вашої випадкової величини не є добре контрольованими.

Що ж тоді робити? Безумовно, метод працює для обмежених випадкових змінних, підтримка яких сходить до точки, але цей клас є занадто малим, щоб бути цікавим. Припустимо, замість того, що послідовність походить із якоїсь висококонцентрованої сім'ї, яка задовольняє (скажімо)Xn

(1)P{|Xnμ|>t}eCnt2

для кожного і деякого . Такі випадкові величини напрочуд поширені. Наприклад, коли - це емпіричне середнєt>0C>0Xn

Xn:=1ni=1nYi

приємних випадкових величин (наприклад, iid та обмежених), з різних нерівностей концентрації випливає, що задовольняє (1). Стандартний аргумент (див. Стор. 10 тут ) обмежує й моменти для таких випадкових змінних:YiXnp

E[|Xnμ|p](p2Cn)p/2.

Тому для будь-якої "досить приємної" аналітичної функції (див. Нижче) ми можемо зв'язати помилку на наближенні ряду -терм Тейлора, використовуючи нерівність трикутникаfEmm

Em:=|E[f(Xn)]p=0mf(p)(μ)p!E(Xnμ)p|1(2Cn)(m+1)/2p=m+1|f(p)(μ)|pp/2p!

коли . Оскільки наближення Стірлінга дає , похибка усіченого ряду Тейлора задовольняєp ! р р - 1 / 2n>C/2p!pp1/2

(2)Em=O(n(m+1)/2) as nwheneverp=0p(1p)/2|f(p)(μ)|<.

Отже, коли сильно зосереджений і достатньо приємний, наближення рядів Тейлора справді точне. З нерівності, що з’являється в (2), випливає, що , так що, зокрема, наш стан вимагає, щоб було цілим . Це має сенс, оскільки (1) не нав'язує жодних припущень щодо обмеженості .Xnff(p)(μ)/p!=O(pp/2)fXn

Давайте подивимось, що може піти не так, коли має особливість (наступний коментар Ваубера). Нехай ми обираємо . Якщо взяти з розподілу усіченого між нулем і двома, то є достатньо концентрованим, але для кожного . Іншими словами, ми маємо висококонцентровану, обмежену випадкову змінну , і все ж метод серії Тейлора виходить з ладу, коли функція має лише одну особливість.ff(x)=1/xXnNormal(1,1/n)XnE[f(Xn)]=n

Кілька слів про строгість. Я вважаю, що приємніше подавати умову, що з'являється в (2), як похідну, а не deus ex machina, що вимагається у жорсткій формі теореми / доказу. Для того, щоб зробити аргумент повністю суворим, спочатку зауважте, що правий бік у (2) має на увазі це

E[|f(Xn)|]i=0|f(p)(μ)|p!E[|Xnμ|p]<

за темпами зростання підгаусських моментів зверху. Таким чином, теорема Фубіні передбачає

E[f(Xn)]=i=0f(p)(μ)p!E[(Xnμ)p]

Решта доказів триває, як зазначено вище.


1
Можливо, я пропустив це у швидкому читанні, але ти стверджуєш (серед іншого), що за умови, що третій момент достатньо "підконтрольний", то очікування може бути досить приблизним, приймаючи очікування щодо серія [журнал MacLaurin] ? Я стурбований , тому що я не бачив жодних - або посилань на властивості збіжності самого ряду, які принаймні так важливі , як хвости розподілу . Xlog(X)logX
whuber

2
@whuber Ви маєте рацію; вам знадобиться підтримка щоб бути в ROC серії Тейлора, тому, зокрема, майже напевно. Я оновлю публікацію, щоб це відобразити. X0<X<2μ
Майк Маккой

2
Я все ще думаю, що мені чогось не вистачає. Наприклад, коли має нормальний розподіл, усічений до , він, очевидно, "висококонцентрований", має середнє значення і майже напевно знаходиться в радіусі конвергенції (що є аналітичним у внутрішній частині одиничного диска, орієнтованого на , який містить ), але нескінченний. X(1,1)(0,2)μ=1f(x)=1/x=1/(1(1x))1(0,2μ)E[f(X)]
whuber

1
@gron Ви зробили невелику помилку. Коли , похідна . Умова не виконується, оскільки для будь-якого . Ви також можете перевірити, що (2) не виконується, оскільки будь-яка функція, яка задовольняє (2), також задовольняє , а значить, має відсутність особливості ( ціла , за посиланням). f(x)=1/x|f(p)(μ)|=p!/μp
(2)=p!p(1p/2)μp
μ>0log(p!f(p)(μ))/pf
Майк Маккой

1
@gron Вам потрібні дві речі: (1) переконайтесь, що ваш RV має підтримку суворо в межах ROC серії потужності журналу (тобто для ), і (2) переконайтесь, що моменти RV зменшуються досить швидко, що оцінка помилки для вище є кінцевою. Щодо того, як контролювати моменти, вам слід задати нове запитання, оскільки це займе занадто багато персонажів (і мені цікаво про нові способи). [0+ε,2με]ε>0Em
Майк Маккой

10

Хоча моя відповідь нікуди не наблизиться до рівня математичної витонченості інших відповідей, я вирішив опублікувати її, тому що я вважаю, що вона має щось сприяти - хоча результат буде "негативним", як кажуть.

Світлим тоном, я б сказав, що ОП є "несприятливим до ризику" (як і більшість людей, як і сама наука), тому що ОП вимагає достатньої умови для наближення розширення серії Тейлора 2-го порядку "бути" прийнятний ". Але це не є необхідною умовою.

По-перше, необхідною, але недостатньою передумовою, щоб очікуване значення Залишку було нижчого порядку, ніж дисперсія rv, як вимагає ОП, - це те, що серія сходиться в першу чергу. Чи варто просто припускати конвергенцію? Немає.

Загальний вираз, який ми вивчаємо, - це

E[g(Y)]=fY(y)[i=0g(i)(μ)(yμ)ii!]dy[1]

Як стверджує Лойстл (1976) , посилаючись на книгу "Обчислення і статистика" Джеміньяні (1978, стор. 170), умовою зближення нескінченної суми є (застосування тесту на відношення для конвергенції)

yμ<|yμ|<limi|(g(i)(μ)g(i+1)(μ)(i+1))|[2]

... де - середнє значення rv. Хоча це теж є достатньою умовою (тест відношення є непереконливим, якщо вищезгадане відношення має рівність), ряд буде розходитися, якщо нерівність буде мати інший бік.μ

Лойстл досліджував три конкретні функціональні форми для , експонентності, потужності та логарифму (його робота знаходиться в області вибору очікуваної корисності та портфоліо, тому він перевірив стандартні функціональні форми, які використовуються для представлення увігнутої корисної функції). Для цих функціональних форм він виявив, що лише для експоненціальної функціональної форми обмеження на не встановлюються. Навпаки, і для сили, і для логарифмічного випадку (де ми вже маємо ) ми знаходимо, що обгрунтованість нерівності еквівалентна g()yμ0<y[2]

yμ<μ0<y<2μ

Це означає, що якщо наша змінна змінюється за межами цього діапазону, то розширення Тейлора, що має як центр розширення, середня буде змінюватися.

Отже: для деяких функціональних форм значення функції в деякій точці її домену дорівнює її нескінченному розширенню Тейлора, незалежно від того, наскільки ця точка знаходиться від центру розширення. Для інших функціональних форм (логарифм включений), точка інтересу повинна лежати дещо «близько» до обраного центру розширення. У випадку, коли у нас є rv, це означає обмеження теоретичного супроводу змінної (або вивчення її емпірично спостережуваного діапазону).

Loitl, використовуючи числові приклади, також показав, що збільшення порядку розширення перед усіченням може погіршити стан точності наближення. Треба зауважити, що емпірично, часові ряди спостережуваних змінних у фінансовому секторі виявляють мінливість більше, ніж вимагає нерівність. Тож Лойтл продовжував виступати за те, щоб методологія наближення серії Тейлора повинна бути повністю скасована, що стосується теорії вибору портфоліо.

Відскок відбувся через 18 років від Hlawitschka (1994) . Цінне розуміння і результат тут було, і я цитую

... хоча серія може в кінцевому рахунку збігатися, мало що можна сказати про будь-яку її часткову серію; конвергенція рядів не означає, що терміни негайно зменшуються в розмірі або що якийсь конкретний термін є достатньо малим, щоб його ігнорувати. Дійсно, як показано тут, можливо, що ряд може здатися розбіжним, перш ніж остаточно сходиться в межі. Якість наближення моменту до очікуваної корисності, що базується на перших кількох умовах серії Тейлора, тому не може бути визначена властивостями збіжності нескінченного ряду. Це емпіричне питання, і емпірично двомоментне наближення до функцій корисності, що вивчаються тут, добре справляється із завданням вибору портфеля. Hlawitschka (1994)

На прикладі Хлавічка показав, що наближення 2-го порядку було "успішним", чи збігався ряд Тейлора чи ні , але він також перевірив результат Лотля, що збільшення порядку наближення може погіршити його. Але є кваліфікований фактор цього успіху: у виборі портфеля очікувана корисність використовується для ранжування цінних паперів та інших фінансових продуктів. Це порядковий захід, а не кардинальний. Отже, що встановив Хлавічка, це те, що наближення 2-го порядку зберегло рейтинг різних цінних паперів порівняно з рейтингом, що випливає з точного значення , а неE(g(Y) що це завжди дало кількісні результати, які там, де достатньо близькі до цього точного значення (див. його таблицю А1 на стор. 718).

То де ж це залишає нас? У кінцівці, я б сказав. Виявляється, що як в теорії, так і в емпіриці прийнятність наближення Тейлора 2-го порядку критично залежить від багатьох різних аспектів досліджуваного конкретного явища та застосовуваної наукової методології - це залежить від теоретичних припущень, від використовуваних функціональних форм, про спостережувану мінливість ряду ...

Але закінчимо це позитивно: сьогодні комп'ютерна потужність замінює багато речей. Таким чином, ми могли б імітувати та перевірити обґрунтованість наближення 2-го порядку для широкого діапазону значень змінної дешево, працюючи ми над теоретичною чи емпіричною задачею.


8

Не справжня відповідь, а приклад, який показує, що все не так приємно, і що потрібні додаткові гіпотези, щоб цей результат справдився.

Визначте як суміш між рівномірним і нормальним , вибирається рівномірна складова з ймовірністю , а нормальна з ймовірністю . У вас і його дисперсія сходить до коли переходить до нескінченності, оскільки якщо я не помиляюся.XnU([1n;1n])N(nn1,1n)1n11n=n1nE(Xn)=10n

E(Xn2)=13n2×1n+((nn1)2+1n)×n1n,

Тепер визначимо (і або що завгодно). Випадкові змінні добре визначені, але не мають очікуваного значення, оскільки не визначено, незалежно від того , наскільки велика є.f(x)=1/xf(0)=0f(Xn)

1n1n1xdx
n

Мій висновок полягає в тому, що вам, очевидно, потрібні гіпотези щодо глобальної поведінки або - скоріше, більш елегантно - щодо швидкості, з якою щільність падає, коли ви далеко від очікуваного значення. Я впевнений, що подібні гіпотези можна знайти в класичній літературі (і навіть у підручниках), на жаль, моє навчання не було в статистиці, і я все ще борюся з літературою сам ... все одно сподіваюся, що це допомогло.fXn

PS. Хіба цей приклад не є прикладом для відповіді Ніка? Хто тоді помиляється?


1
Більш загальне твердження вашого аргументу полягає в тому, що існує і є кінцевим дляE[Xk]k=1,2,3
ймовірністьлогічний

Я вважаю, що мій вище коментар є невірним - що має бути, це те, що функція допускає розширення серії Тейлора в точці . У наведеному прикладі у вас є який не є безперервним при . Я думаю, що це означає, що не може бути розширено в серії Тейлора для вашого прикладу. f(x)x=μf(x)=1xx=0f
ймовірністьлогічний

Це може бути, при . Тоді є радіус конвергенції ... Можливо, вам потрібен нескінченний радіус зближення ?! Це сувора вимога. μ=1
Елвіс

1
Елвіс, так, нам потрібна глобальна умова. По суті, решта повинна поводитись добре після того, як вона зважена хвостами розподілу. Щось подібне до вашого прикладу, що з’явився нещодавно, дивіться тут , тут і тут .
кардинал

4

Це не повна відповідь, просто інший спосіб досягнення наближення другого порядку.

Я думаю, що найкращим способом є використання теореми середнього значення Коші, а не робота з залишковим терміном серії Тейлора. Якщо ми застосовуємо його один раз, маємо

f(X)=f(μ)+f(ξ1)(Xμ)

для деяких коли або коли . Тепер ми знову застосуємо теорему середнього значення до і маємоXξ1μXμXξ1μXμf(ξ1)

f(ξ1)=f(μ)+f(ξ2)(ξ1μ)

для деяких коли або коли . введення цього в першу фомулу даєXξ1ξ2μXμXξ1ξ2μXμ

f(X)=f(μ)+f(μ)(Xμ)+f(ξ2)(ξ1μ)(Xμ)

Зауважте, що для цього результату потрібно лише, щоб було безперервним і вдвічі диференційоване між і . Однак це стосується лише фіксованого , а зміна означатиме відповідну зміну . Метод дельти другого порядку можна вважати загальним припущенням, що і у всьому діапазоні підтримки , або принаймні над областю маси високої ймовірності.fXμXXξiξ1μ=12(Xμ)ξ2=μX

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.