Показати оцінку конверсується до відсотків за допомогою статистики замовлень


10

Нехай - послідовність iid випадкових змінних, відібраних з альфа-стабільного розподілу , з параметрами .X1,X2,,X3nα=1.5,β=0,c=1.0,μ=1.0

Тепер розглянемо послідовність , де , для .Y1,Y2,,YnYj+1=X3j+1X3j+2X3j+31j=0,,n1

Я хочу оцінити 0.01 відсотків.

Моя ідея полягає у виконанні свого роду моделювання Монте-Карло:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

Викликаючи середнє значення для всіх вибіркових процентних відсотків, обчислених на та їх відмінність , щоб обчислити відповідний інтервал довіри для , я вдаюся до сильної форми теореми про центральну межу :- μ п0.01μ^n μσ^n2μ

Нехай - це послідовність iid випадкових змінних з та . Визначте середнє значення вибірки як . Тоді, має обмежувальний стандартний нормальний розподіл, тобто X1,X2,E[Xi]=μц п = ( 1 / п ) Σ п я = 1 X я ( ц п - ц ) / 0<V[Xi]=σ2<μ^n=(1/n)i=1nXiμ п -μ(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

і теорему Слукссі зробити висновок, що

nμ^nμσ^n2nN(0,1).

Тоді А -confidence інтервал для ємк(1α)×100%μ

z1-α/2(1-α/2)

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
де - -кілька стандартного нормального розподілу.z1α/2(1α/2)

Запитання:

1) Чи правильний мій підхід? Як я можу обґрунтувати застосування CLT? Я маю на увазі, як я можу показати, що дисперсія є кінцевою? (Чи потрібно дивитись на дисперсію ? Тому що я не думаю, що це скінченно ...)Yj

2) Як я можу показати, що середнє значення для всіх обчислених вибірки процентних відсотків збігається до справжнього значення перцентиля? (Я повинен використовувати статистику замовлень, але я не впевнений, як провести процедуру; посилання оцінюються.)0,01 -0.010.01


3
Усі методи, застосовані до медіа проб на сайті stats.stackexchange.com/questions/45124, також застосовуються до інших відсотків. По суті, ваше запитання ідентичне тому, але лише замінює 50-й перцентиль першим (або 0,01, можливо,?) Перцентилем.
блуд

@whuber, ваша відповідь на це питання надзвичайно хороша. однак Glen_b заявляє, що наприкінці своєї посади (прийнята відповідь), що приблизна норма "не відповідає крайнім квантилам, оскільки CLT не забиває туди (середнє значення Z не буде асимптотично нормальним") ). Вам потрібна інша теорія для екстремальних значень ". Наскільки я повинен перейматися цим твердженням?
Майя

2
Я вважаю, що він насправді не мав на увазі екстремальних квантилів , а лише самих крайнощів . (Насправді він виправив цей проміжок в кінці того ж речення, посилаючись на них як на "крайні значення".) Відмінність полягає в тому, що крайній квантил, такий як перпендилій .01 (який позначає нижню 1/10000-ту частину розподіл) стабільно стабілізується, оскільки все більше і більше даних у вибірці все ще будуть опускатися нижче, і все більше і більше буде опускатися вище цього відсотка. З крайнім (таким як максимум чи мінімум), що вже не так.
whuber

Це проблема, яку слід вирішити загалом з використанням емпіричної теорії процесу. Деяка допомога щодо вашого рівня підготовки була б корисною.
AdamO

Відповіді:


2

Дисперсія не є кінцевою. Y Це відбувається тому , що альфа-стійкого змінні з (а розподіл Хольцмаркі ) дійсно має кінцевий математичне очікування , але її дисперсія є нескінченною. Якби у була кінцева дисперсія , то, використовуючи незалежність та визначення дисперсії, ми могли б обчислитиα = 3 / 2 μ Y сг 2 X IXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

Це кубічне рівняння в має принаймні одне реальне рішення (і до трьох рішень, але не більше), що означає, що ім'я було б кінцевим - але це не так. Ця суперечність доводить твердження.Var ( X )Var(X)Var(X)


Перейдемо до другого питання.

Будь-який квантил вибірки перетворюється на справжній квантил, коли зразок збільшується. Наступні кілька абзаців підтверджують цей загальний пункт.

Нехай пов'язана ймовірність буде (або будь-яке інше значення між і , виключно). Напишіть для функції розподілу, щоб - квантил.0 1 F Z q = F - 1 ( q ) q thq=0.0101FZq=F1(q)qth

Все, що нам потрібно припустити, це те, що (квантильна функція) є безперервним. Це запевняє нас, що для будь-якого існують ймовірності і для яких ϵ > 0 q - < q q + > qF1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

і що як , межа інтервалу дорівнює .[ q - , q + ] { q }ϵ0[q,q+]{q}

Розглянемо будь-який зразок розміру . Кількість елементів цього зразка, що менше має розподіл, оскільки кожен елемент незалежно має шанс бути меншим за . Теорема центрального граничного значення (звичайна!) Означає, що для досить великого кількість елементів, менших від , задається нормальним розподілом із середнім та дисперсією (до довільно гарне наближення). Нехай CDF стандартного нормального розподілу буде . Шанс, що ця кількість перевищуєZ q - ( q - , n ) q - Z q - n Z q - n q - n q - ( 1 - q - ) Φ n qnZq(q,n)qZqnZqnqnq(1q)Φnq тому довільно близький до

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

Оскільки аргумент на праворуч є фіксованим кратним , він зростає довільно великим, оскільки росте. Оскільки є CDF, його значення довільно наближається до , показуючи граничне значення цієї ймовірності дорівнює нулю.Φ nΦ1nnΦ1

На словах: у граничній майже напевно випадок, що елементів вибірки не менше . Аналогічний аргумент доводить, що майже напевно випадок, що елементів вибірки не більше . Разом з них випливає, що квантиль достатньо великої вибірки, ймовірно, лежить між та .Z q - n q Z q + q Z q - ϵ Z q + ϵnqZqnqZq+qZqϵZq+ϵ

Це все, що нам потрібно для того, щоб знати, що моделювання спрацює. Ви можете вибрати будь-яку бажану ступінь точності та рівень довіри та знати, що для досить великого розміру вибірки статистика порядку, найближча до у цьому зразку, матиме шанс принаймні опинитися в межах справжнього .1 - α n n q 1 - α ϵ Z qϵ1αnnq1αϵZq


Встановивши, що моделювання спрацює, решта легко. Межі довіри можна отримати з обмежень для розподілу біномів і потім перетворити назад. Подальше пояснення (для , але узагальнююче для всіх квантилів) можна знайти у відповідях із теореми центрального граничного значення для медіанів вибірки .q=0.50

Фігура: гістограма 0,01 кванту Y з n = 300 для 1000 ітерацій

квантиль є негативним. Його розподіл вибірки сильно перекошений. Щоб зменшити перекіс, На цьому малюнку показана гістограма логарифмів негативів в 1000 імітованих зразків значень .Y n = 300 Yq=0.01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.