Зсув обчислювача моментів лонормального розподілу


25

Я роблю чисельний експеримент, який полягає у вибірці логічного нормального розподілу та намагаюся оцінити моменти двома методами:XLN(μ,σ)E[Xn]

  1. Дивлячись на середнє значення вибіркиXn
  2. Оцінюючи μ та σ2 , використовуючи засоби вибірки для log(X),log2(X) , а потім використовуючи той факт, що для логічного нормального розподілу маємо E[Xn]=exp(nμ+(nσ)2/2) .

Питання :

Я експериментально вважаю, що другий метод працює набагато краще, ніж перший, коли я тримаю фіксовану кількість зразків і збільшую мк,σ2 деяким фактором T. Чи є якесь просте пояснення цього факту?

Я додаю фігуру, у якій вісь x дорівнює T, тоді як вісь y - це значення Е[Х2] порівнюючи справжні значення Е[Х2]=досвід(2мк+2σ2) (помаранчева лінія), до розрахункових значень. метод 1 - сині точки, метод 2 - зелені точки. вісь y знаходиться в масштабі журналу

Істинні та оцінені значення для $ \ mathbb {E} [X ^ 2] $.  Сині крапки - це вибіркові засоби для $ \ mathbb {E} [X ^ 2] $ (метод 1), тоді як зелені точки - це орієнтовні значення за допомогою методу 2. Помаранчева лінія обчислюється з відомих $ \ mu $, $ \ sigma $ тим самим рівнянням, що й у способі 2. вісь y знаходиться в масштабі журналу

Редагувати:

Нижче наведено мінімальний код Mathematica для отримання результатів для однієї T, з виходом:

   ClearAll[n,numIterations,sigma,mu,totalTime,data,rmomentFromMuSigma,rmomentSample,rmomentSample]
(* Define variables *)
n=2; numIterations = 10^4; sigma = 0.5; mu=0.1; totalTime = 200;
(* Create log normal data*)
data=RandomVariate[LogNormalDistribution[mu*totalTime,sigma*Sqrt[totalTime]],numIterations];

(* the moment by theory:*)
rmomentTheory = Exp[(n*mu+(n*sigma)^2/2)*totalTime];

(*Calculate directly: *)
rmomentSample = Mean[data^n];

(*Calculate through estimated mu and sigma *)
muNumerical = Mean[Log[data]]; (*numerical \[Mu] (gaussian mean) *)
sigmaSqrNumerical = Mean[Log[data]^2]-(muNumerical)^2; (* numerical gaussian variance *)
rmomentFromMuSigma = Exp[ muNumerical*n + (n ^2sigmaSqrNumerical)/2];

(*output*)
Log@{rmomentTheory, rmomentSample,rmomentFromMuSigma}

Вихід:

(*Log of {analytic, sample mean of r^2, using mu and sigma} *)
{140., 91.8953, 137.519}

вище, другий результат - середнє вибіркове значення r2 , що нижче двох інших результатів


2
Незаангажований оцінювач не означає, що сині точки повинні бути біля очікуваного значення (помаранчева крива). Оцінювач може бути неупередженим, якщо він має велику ймовірність бути занадто низьким і малим (можливо, зникаючим малим) ймовірністю бути занадто високим. Ось що відбувається, коли T збільшується, а дисперсія стає набагато величезною (див. Мою відповідь).
Меттью Ганн

Докладніше про те, як отримати неупереджені оцінки, див. Stats.stackexchange.com/questions/105717 . УМВУЕ середнього та відхилення наведені у відповідях та коментарях до них.
whuber

Відповіді:


22

Відтоді в цих результатах є щось дивовижне

  1. перший метод забезпечує неупереджений оцінювач , а саме має як його середнє значення. Отже, сині точки повинні бути навколо очікуваного значення (помаранчева крива);1Е[Х2] E[X2]
    1Ni=1NХi2
    Е[Х2]
  2. другий метод забезпечує упереджений оцінювач , а саме коли та є неупередженими оцінювачами відповідно та , і тому дивно, що зелені точки вирівнюються з помаранчевою кривою.Е [ ехр ( п ц + п 2 сг 2 / 2 ) ] > ехр ( п ц + ( п сг ) 2 / 2 ) ц сг ² ц сг ²Е[Х2]
    Е[досвід(нмк^+н2σ^2/2)]>досвід(нмк+(нσ)2/2)
    мк^σ^²мкσ²

але вони пов'язані з проблемою, а не з числовими обчисленнями: я повторив експеримент в R і отримав наступне зображення з тим самим кольоровим кодом і тією ж послідовністю 'і ' s, що представляє кожен розділений оцінювач за справжнім очікуванням:σ TмкТσТ

Два емпіричні секунди, засновані на 10⁶ нормальних моделюваннях

Ось відповідний код R:

moy1=moy2=rep(0,200)
mus=0.14*(1:200)
sigs=sqrt(0.13*(1:200))
tru=exp(2*mus+2*sigs^2)
for (t in 1:200){
x=rnorm(1e5)
moy1[t]=mean(exp(2*sigs[t]*x+2*mus[t]))
moy2[t]=exp(2*mean(sigs[t]*x+mus[t])+2*var(sigs[t]*x+mus[t]))}

plot(moy1/tru,col="blue",ylab="relative mean",xlab="T",cex=.4,pch=19)
abline(h=1,col="orange")
lines((moy2/tru),col="green",cex=.4,pch=19)

Отже, справді відбувається колапс другого емпіричного моменту у міру збільшення та який я б пояснив величезним збільшенням дисперсії зазначеного другого емпіричного моменту як збільшення та .σ μ σмкσмкσ

Моє пояснення цього цікавого явища полягає в тому, що, хоча очевидно є середнім значенням , воно не є центральним значенням: насправді медіана дорівнює . Представляючи випадкову змінну як де , зрозуміло, що коли велика Досить, випадкова величина майже ніколи не має величини . Іншими словами, якщо єЕ[Х2]Х2Х2е2мкХ2досвід{2мк+2σϵ}ϵN(0,1)σσϵσ2ХLN(мк,σ)

П(Х2>Е[Х2])=П(журнал{Х2}>2мк+2σ2)=П(мк+σϵ>мк+σ2)=П(ϵ>σ)=1-Φ(σ)
який може бути довільно малим.

1
Я також спантеличений. Я додаю мінімальний код з результатами (Mathematica)
user29918

Добре. Спасибі! Вказуючи деякі цифри, я бачу, що мій мізерний розмір вибірки насправді не вирішував завдання!
user29918

2
@ user29918: Вибачте, я не вважаю розмір вибірки проблемою, а швидше тим, що норма-журнал стає дуже перекошеним, коли зростає до нескінченності, як засіб стає марним. σ
Сіань

2
@ Xi'an Гарні речі! . Це чітко відображає в рівняннях те, що я (досить неточно) намагався виразити словами, що як збільшується, стає все більш імовірним (а для великих , майже певних), що спостереження нижче середнього. Дійсно ймовірність настільки велика, що велика ймовірність, що вся вибірка знаходиться нижче середнього! П(Х2>Е[Х2])=1-Φ(σ)σσ
Меттью Ганн

2
Цей тип асимптотики не дуже корисний у тому, що кількість симуляцій, необхідних для правильного наближення моментів, швидко зростає в експоненціальному режимі з . σ
Сіань

13

Я подумав, що я підкинув би інжир, який показує, що і сюжети user29918, і Сіань узгоджуються. На фіг.1 зображено те, що робив user29918, а фіг.2 (на основі тих же даних) робить те, що зробив Сіань для свого сюжету. Один і той же результат, різні презентації.

Що відбувається, це те, що в міру збільшення T відхилення стають величезними, і оцінювач стає схожим на спробу оцінити середній показник населення Powerball Lotto, купуючи квитки на лото! З великим відсотком часу ви недооцінюєте окупність (оскільки жодне спостереження за вибіркою не потрапляє на джекпот) і невеликий відсоток часу, ви значно завищуєте виграш (адже у вибірці є переможець джекпота). Вибірка середнього значення є неупередженою оцінкою, але очікується, що вона не буде точною, навіть при тисячах і тисячах розіграшів! Насправді, оскільки стає складніше і складніше виграти лото, середня сума вибірки буде нижчою за кількість населення, що означає переважну більшість часу.1нiхi2

Подальші коментарі:

  1. Незаангажований оцінювач не означає, що очікується, що оцінювач буде близьким! Сині точки не повинні бути біля очікування. Напр. одне спостереження, вибране навмання, дає неупереджену оцінку середньої сукупності, але, як очікується, цей оцінювач не буде близьким.
  2. Питання виникає, коли дисперсія стає абсолютно астрономічною. Оскільки дисперсія батшиту, оцінка першого методу визначається лише кількома спостереженнями. У вас також є невелика, крихітна вірогідність великої кількості НЕБЕЗПЕЧНО, НЕБЕЗПЕЧНО, ІНСАЛЬНО ...
  3. Це інтуїтивне пояснення. Сіань має більш формальне походження. Його результат означає, що як набуває великих розмірів, стає неймовірно мало ймовірним зробити спостереження вище середнього, навіть при тисячах спостережень . Моя мова про "виграш у лото" стосується події, де . П(Х2>Е[Х2])=1-Φ(σ)σХ2>Е[Х2]введіть тут опис зображення

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.