Асимптотична нормальність статистики порядку важких хвостових розподілів


9

Передумови: У мене є зразок, який я хочу моделювати з великим хвостиком. У мене є деякі крайні значення, такі, що поширення спостережень порівняно велике. Моя ідея полягала в тому, щоб моделювати це з узагальненим розподілом Парето, і так я зробив. Тепер, 0,975 квантил моїх емпіричних даних (близько 100 точок даних) нижчий, ніж 0,975 квантил узагальненого розподілу Парето, який я підходив до своїх даних. Тепер я подумав, чи є якийсь спосіб перевірити, чи є ця різниця чомусь хвилюватися?

Ми знаємо, що асимптотичний розподіл квантилів задається як:

асимптотична нормальність квантів

Тому я подумав, що було б гарною ідеєю розважити мою цікавість, намагаючись побудувати діапазони довіри 95% навколо квантиля 0,975 узагальненого розподілу Парето з тими ж параметрами, що і я отримав під час монтажу даних.

GPD

Як бачите, ми тут працюємо з деякими крайніми значеннями. А оскільки розкид настільки величезний, функція щільності має надзвичайно малі значення, завдяки чому смуги довіри переходять до порядку використовуючи дисперсію асимптотичної формули нормальності вище:±1012

±1.960.9750.025n(fGPD(q0.975))2

Отже, це не має жодного сенсу. У мене розподіл має лише позитивні результати, а довірчі інтервали включають негативні значення. Отже, щось тут відбувається. Якщо я обчислюю смуги навколо квантиля 0,5, то смуги не такі величезні, але все-таки величезні.

Продовжую бачити, як це відбувається з іншим розподілом, а саме з розподілом . Моделюйте спостережень з розподілу і перевірте, чи перебувають кванти в межах довірчих смуг. Я роблю це 10000 разів, щоб побачити пропорції 0,975 / 0,5 квантових частин модельованих спостережень, які знаходяться в межах довірчих діапазонів.N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

EDIT : Я виправив код, і обидва квантування дають приблизно 95% звернень з n = 100 та з . Якщо я прокручую стандартне відхилення до , то в діапазонах дуже мало хітів. Тож питання все ще стоїть.σ=1σ=2

EDIT2 : Я відкликаю те, про що заявляв у першій редакції вище, на що вказував у коментарях корисний джентльмен. Насправді схоже, що ці КІ корисні для нормального розподілу.

Чи є ця асимптотична нормальність статистики замовлень лише дуже поганою мірою, яку потрібно використати, якщо потрібно перевірити, чи є певний кількісний коефіцієнт, враховуючи певний розподіл кандидата?

Інтуїтивно мені здається, що існує взаємозв'язок між дисперсією розподілу (яку, на нашу думку, створили дані, або в моєму прикладі R, який ми знаємо, створив дані) та кількістю спостережень. Якщо у вас 1000 спостережень і величезна дисперсія, ці смуги погані. Якщо у вас 1000 спостережень і невелика дисперсія, ці смуги, можливо, мають сенс.

Хтось дбає про те, щоб розчистити це для мене?


2
Ваша смуга грунтується на дисперсії асимптотичного нормального розподілу, але повинна базуватися на стандартному відхиленні нормального асимптотичного розподілу (смуга = 1,96 * sqrt ((0,975 * 0,025) / (100 * (f_norm) ^ 2)), і аналогічно для узагальненого Парето dist'n.) Спробуйте це замість цього і подивіться, що відбувається.
jbowman

@jbowman дякую, що вказали на це! Я це виправлю!
Еросеннін

@jbowman, що робить групу меншою, і в прикладі з моїм R-кодом, який насправді дає кілька менших хітів. Це була ще одна помилка, яка зробила обчислення неправильним, але я це виправив зараз. Ви привели мене до цього, тому я дуже ціную це! Менші групи у випадку з ВВП - це дуже хороша новина, але я боюся, що вони все ще такі величезні, що їх неможливо використовувати. Я досі не можу побачити будь-який інший винос, окрім того, що розмір вибірки та дисперсія стосунків - це те, що має бути великим, а не розміром вибірки.
Еросеннін

Не хвилюйтесь! Зауважу, що ви правильно отримали перед першою формулою; якщо ви розділите обидві сторони тим, як у , це може допомогти. Вибачте, що пропустив це вперше. (Можливо, ви теж це виправили, але не оновили відповідні частини питання.)(n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
jbowman

1
Так, це так, я не звертав уваги. OTOH, коли я запускаю ваш код, змінюючи sd = 1 на sd = 2 скрізь, я отримую майже однакову частку звернень обох разів у квантилі 0,975: 0,9683 та 0,9662 відповідно. Цікаво, чи ти пропустив sd = 1 десь під час запуску ? σ=2
jbowman

Відповіді:


3

Я припускаю, що ваше походження походить від чогось подібного на цій сторінці .

У мене розподіл має лише позитивні результати, а довірчі інтервали включають негативні значення.

Ну, враховуючи нормальне наближення, яке має сенс. Ніщо не зупиняє нормальне наближення від отримання негативних значень, саме тому це погане наближення для обмеженого значення, коли розмір вибірки невеликий та / або дисперсія велика. Якщо ви викручуєте розмір вибірки, то інтервали будуть скорочуватися, оскільки розмір вибірки знаходиться в знаменнику виразу для ширини інтервалу. Дисперсія входить в задачу через щільність: для тієї ж середньої величини дисперсія буде мати різну щільність, вищу на межі і нижчу біля центру. Нижня щільність означає більш широкий інтервал довіри, оскільки щільність знаходиться в знаменнику виразу.

Трохи гуглінг знайшов цю сторінку , серед інших, яка використовує нормальне наближення до біноміального розподілу для побудови меж довіри. Основна ідея полягає в тому, що кожне спостереження падає нижче квантиля з вірогідністю q , так що розподіл є двочленним. Коли розмір вибірки є досить великим (що важливо), біноміальний розподіл добре апроксимується нормальним розподілом із середнім та дисперсією . Отже нижня межа довіри матиме індекс , а верхній довірчий межа матиме індекс . Існує можливість, що або абоnqnq(1q)j=nq1.96nq(1q)k=nq1.96nq(1q)k>nj<1 при роботі з квантовими біля краю, і знайдене нами посилання про це мовчить. Я вирішив просто розглядати максимум або мінімум як відповідне значення.

У наступному переписуванні вашого коду я побудував межу достовірності на емпіричних даних і перевірив, чи не входить теоретичний квантил. Це для мене більше сенсу, тому що квантил спостережуваного набору даних є випадковою змінною. Покриття для n> 1000 становить ~ 0,95. Для n = 100 це гірше на 0,85, але цього можна очікувати для квантилів біля хвостів з невеликими розмірами вибірки.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Що стосується визначення того, який розмір вибірки "достатньо великий", то краще, тим більший. Чи є який-небудь конкретний зразок "достатньо великим", сильно залежить від проблеми, яка склалася, і від того, наскільки ви метушливі щодо таких речей, як покриття ваших меж довіри.


Дякуємо за внесок! Я зазначив, що не бачу, як існує якийсь абсолютний "великий" зразок, і треба враховувати дисперсію. Мені цікаво, як це стосується мого способу побудови КІ, але і взагалі. Щодо виведення, ви можете, наприклад, ознайомитись тут: math.mcgill.ca/~dstephens/OldCourses/556-2006/… . Створені нами КІ випливають із прикладу цього посилання. Ви пишете, що "я побудував межу достовірності на емпіричних даних ...", і це має для вас більше сенсу. Чи можете ви, будь ласка, детальніше розібратися в цьому ірті моїх ІП?
Єросеннін

А, так, у вас було правильне посилання на деривацію. Вибач, моя погана.
Єросеннін

Гаразд, я знову відредагував це, щоб правильно описати, як дисперсія розподілу впливає на наближення, яке ви використовуєте, і трохи більше обговорення того, що означає "великий" зразок. Ваш КІ зосереджений на теоретичному значенні, а мій - на емпіричному. Я думаю, що для порівняння емпіричного квантиля з теоретичним інтервали повинні бути побудовані на емпіричному квантилі. Крім того, використовуване нами наближення робить одне менш "нормальне" наближення, оскільки немає заклику до теореми про центральну межу для початку.
atiretoo - відновити моніку

Я ціную зусилля, можливо, моє питання могло бути зрозумілішим. Я вже зрозумів, як щільність і розмір вибірки впливають на дисперсію, це було моє питання в першу чергу. Але, знову ж таки, мій поганий, я міг бути більш чітким. Я вважаю, що саме "асимптотика" повинна бути вимкнена з тим, що враховує дисперсію. Ну, ви також зосередили свої ІС навколо теоретичних значень. n * q - саме ваше теоретичне значення. Створюючи свої групи, ви по суті зробили те саме, що і я, тільки іншим методом.
Єросеннін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.