Центральна гранична теорема та розподіл Парето


10

Відповіді:


15

Твердження загалом не відповідає дійсності - розподіл Парето має кінцеве середнє значення, якщо параметр його форми (α за посиланням) більше 1.

Коли існують і середня, і дисперсія (α>2) застосовуватимуться звичайні форми центральної граничної теореми - наприклад класична, Ляпунов, Ліндеберг

Опис класичної теоретичної граничної теореми дивіться тут

Цитата є якось дивною, тому що центральна гранична теорема (у будь-якій із згаданих форм) стосується не самого зразкового значення, а стандартизованого середнього (і якщо ми спробуємо застосувати його до чогось, середнє значення та дисперсія якого не кінцеве, нам потрібно дуже ретельно пояснити, про що ми говоримо насправді, оскільки чисельник і знаменник включають речі, які не мають обмежених обмежень).

Тим не менше (незважаючи на те, що не дуже коректно висловлено, якщо говорити про центральні граничні теореми), у нього є щось основне - середня вибірка не збігається із середньою сукупністю ( слабкий закон великої кількості не відповідає, оскільки інтеграл, що визначає середнє, не є кінцевим).


Як справедливо в коментарях зазначає kjetil, якщо ми хочемо не допустити, щоб швидкість конвергенції була жахливою (тобто, щоб мати можливість використовувати її на практиці), нам потрібна якась прив'язка до того, "як далеко" / "як швидко" наближення починається. Це не має сенсу для адекватного наближення н>1010100 (скажімо), якщо ми хочемо практичного використання з нормального наближення.

Центральна гранична теорема стосується місця призначення, але нічого не говорить про те, як швидко ми туди потрапимо; Однак є такі результати, як теорема Беррі-Ессена, які дійсно обмежують швидкість (у певному сенсі). Що стосується Беррі-Ессена, він перебуває найбільшу відстань між функцією розподілу стандартизованого середнього та стандартним нормальним cdf у перерахунку на третій абсолютний момент (Е(|Х|3)).

Так у випадку з Парето, якщо α>3, ми можемо принаймні прив’язатись до того, наскільки поганим може бути наближення ні як швидко ми туди потрапляємо. (З іншого боку, обмеження різниці в cdfs не обов'язково особливо "практична" річ - те, що вас цікавить, може не стосуватися особливо різниці в області хвоста). Тим не менш, це щось (і принаймні в деяких ситуаціях прив'язка до формату PDF є безпосередньо кориснішою).


2
Але якщо дисперсія ледве існує, то є α>2але дуже близько, центральна гранична теорема, застосовуючи в принципі, може призвести до дуже поганих наближень. Щоб мати певний контроль над якістю наближення, вам потрібно щось на зразок теореми Беррі-Ессена, для чого потрібні треті моменти, тобтоα>3.
kjetil b halvorsen

@kjetil зовсім так; на практиці вам потрібно більше, ніж просто секунди, тому що конвергенція може бути марно повільною.
Glen_b -Встановіть Моніку

1
Так, я додам відповідь, щоб це показати!
kjetil b halvorsen

2
Деякі розподіли, які не відповідають центральній граничній теоремі, можуть бути стандартизовані для зближення до стійкого закону.
Майкл Р. Черник

Чудова дискусія тут. Бажання stackexchange мав змогу слідкувати за відповідями та коментарями людей;)
Chan-Ho Suh

9

Я додам відповідь, яка показує, наскільки поганим може бути наближення з теореми про центральну межу (CLT) для розподілу парето, навіть у випадку, коли припущення щодо CLT виконані. Припущення полягає в тому, що повинна бути кінцева дисперсія, що для парето означає цеα>2. Для більш теоретичного обговорення того, чому це так, дивіться мою відповідь тут: Яка різниця між кінцевою та нескінченною дисперсією

Я буду імітувати дані з розподілу парето за допомогою параметра α=2.1, так що дисперсія "просто ледь існує". Повторити моє моделювання за допомогоюα=3.1щоб побачити різницю! Ось декілька код R:

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

І ось сюжет:

змодельовані засоби парето, гістограма

Це можна побачити навіть за розміром вибірки н=10000ми далекі від нормального наближення. Що емпіричні дисперсії настільки нижчі, ніж справжня теоретична дисперсіяσ2=1пояснюється тим, що ми маємо дуже великий внесок у відхилення від частин розподілу в крайньому правому хвості, які не виявляються у більшості зразків. Цього можна очікувати завжди, коли дисперсія "ледь існує" . Практичний спосіб подумати про це полягає в наступному. Часто пропонується розподіл парето для моделювання розподілу доходу (або багатства). Очікування доходу (або багатства) матиме дуже великий внесок від небагатьох мільярдерів. Вибірка з практичними розмірами вибірки матиме дуже малу ймовірність включення до вибірки будь-яких мільярдерів!


3

Мені подобаються вже відповіді, але я думаю, що для "пояснення непрофесійної людини" є багато технічного, тому я спробую щось інтуїтивніше (починаючи з рівняння ...).

Середнє значення щільності p визначається як:

мк=хp(х)гх
Таким чином, грубо кажучи, середня сума - це «сума, що перевищила х"продукту між щільністю при х і хсебе. Колих має тенденцію до нескінченності щільності при p(x) повинен випасти достатньо, щоб продукт xp(x)не йде в нескінченність (і в результаті сума також). Колиp(x) не зникає достатньо, продукт іде до нескінченності, інтеграл іде до нескінченності, мк не існує і, нарешті, pне означає. Це стосується Парето для певних значень параметрів.

Тоді центральна гранична теорема встановлює розподіл відстані між емпіричним середнім х¯=1нiхi і середня мк як функція дисперсії p і н (асимптотично с н). Подивимося, як означає емпіричне значеннях¯ поводиться як функція числа н для гауссової щільності p:

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

введіть тут опис зображення

Це типова реалізація, середнє значення вибірки сходяться до середнього значення щільності (і в середньому таким чином, як задано центральною граничною теоремою). Нехай те ж саме зробить для парето-розподілу без середнього значення (підміна rnorm (N, 1,1); pareto (N, 1,1,1);)

введіть тут опис зображення

Це також типове моделювання, час від часу середнє значення вибірки сильно відхиляється просто, як пояснено за допомогою інтегральної формули, у продукті p(х)х, частота високих значень х недостатньо малий, щоб компенсувати той факт хвисока. Отже, середнього значення не існує, а середня вибірка не збігається з яким-небудь типовим значенням, а про центральну граничну теорему нічого сказати.

Нарешті, зауважте, що центральна гранична теорема стосується емпіричного середнього, середнього, розміру вибірки ні дисперсія. Отже, дисперсія(х-мк)2p(х)гх також має існувати (див. відповідь kjetil b halvorsen для деталей).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.