Чи може хтось, будь ласка, надати просте (непрофесійне) пояснення взаємозв'язку між розподілами Парето та теоремою центрального обмеження (наприклад, чи застосовується це? Чому / чому ні?)? Я намагаюся зрозуміти таке твердження:
Чи може хтось, будь ласка, надати просте (непрофесійне) пояснення взаємозв'язку між розподілами Парето та теоремою центрального обмеження (наприклад, чи застосовується це? Чому / чому ні?)? Я намагаюся зрозуміти таке твердження:
Відповіді:
Твердження загалом не відповідає дійсності - розподіл Парето має кінцеве середнє значення, якщо параметр його форми ( за посиланням) більше 1.
Коли існують і середня, і дисперсія () застосовуватимуться звичайні форми центральної граничної теореми - наприклад класична, Ляпунов, Ліндеберг
Опис класичної теоретичної граничної теореми дивіться тут
Цитата є якось дивною, тому що центральна гранична теорема (у будь-якій із згаданих форм) стосується не самого зразкового значення, а стандартизованого середнього (і якщо ми спробуємо застосувати його до чогось, середнє значення та дисперсія якого не кінцеве, нам потрібно дуже ретельно пояснити, про що ми говоримо насправді, оскільки чисельник і знаменник включають речі, які не мають обмежених обмежень).
Тим не менше (незважаючи на те, що не дуже коректно висловлено, якщо говорити про центральні граничні теореми), у нього є щось основне - середня вибірка не збігається із середньою сукупністю ( слабкий закон великої кількості не відповідає, оскільки інтеграл, що визначає середнє, не є кінцевим).
Як справедливо в коментарях зазначає kjetil, якщо ми хочемо не допустити, щоб швидкість конвергенції була жахливою (тобто, щоб мати можливість використовувати її на практиці), нам потрібна якась прив'язка до того, "як далеко" / "як швидко" наближення починається. Це не має сенсу для адекватного наближення (скажімо), якщо ми хочемо практичного використання з нормального наближення.
Центральна гранична теорема стосується місця призначення, але нічого не говорить про те, як швидко ми туди потрапимо; Однак є такі результати, як теорема Беррі-Ессена, які дійсно обмежують швидкість (у певному сенсі). Що стосується Беррі-Ессена, він перебуває найбільшу відстань між функцією розподілу стандартизованого середнього та стандартним нормальним cdf у перерахунку на третій абсолютний момент ().
Так у випадку з Парето, якщо , ми можемо принаймні прив’язатись до того, наскільки поганим може бути наближення і як швидко ми туди потрапляємо. (З іншого боку, обмеження різниці в cdfs не обов'язково особливо "практична" річ - те, що вас цікавить, може не стосуватися особливо різниці в області хвоста). Тим не менш, це щось (і принаймні в деяких ситуаціях прив'язка до формату PDF є безпосередньо кориснішою).
Я додам відповідь, яка показує, наскільки поганим може бути наближення з теореми про центральну межу (CLT) для розподілу парето, навіть у випадку, коли припущення щодо CLT виконані. Припущення полягає в тому, що повинна бути кінцева дисперсія, що для парето означає це. Для більш теоретичного обговорення того, чому це так, дивіться мою відповідь тут: Яка різниця між кінцевою та нескінченною дисперсією
Я буду імітувати дані з розподілу парето за допомогою параметра , так що дисперсія "просто ледь існує". Повторити моє моделювання за допомогоющоб побачити різницю! Ось декілька код R:
### Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) # for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1 # variance just barely exist
E <- function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))
R <- 10000
e <- E(alpha)
sigma <- sqrt(VAR(alpha))
sim <- function(n) {
replicate(R, {x <- rpareto1(n,alpha,1)
x <- x-e
mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...
### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:
sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)
### Now we plot the histograms:
hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)
І ось сюжет:
Це можна побачити навіть за розміром вибірки ми далекі від нормального наближення. Що емпіричні дисперсії настільки нижчі, ніж справжня теоретична дисперсіяпояснюється тим, що ми маємо дуже великий внесок у відхилення від частин розподілу в крайньому правому хвості, які не виявляються у більшості зразків. Цього можна очікувати завжди, коли дисперсія "ледь існує" . Практичний спосіб подумати про це полягає в наступному. Часто пропонується розподіл парето для моделювання розподілу доходу (або багатства). Очікування доходу (або багатства) матиме дуже великий внесок від небагатьох мільярдерів. Вибірка з практичними розмірами вибірки матиме дуже малу ймовірність включення до вибірки будь-яких мільярдерів!
Мені подобаються вже відповіді, але я думаю, що для "пояснення непрофесійної людини" є багато технічного, тому я спробую щось інтуїтивніше (починаючи з рівняння ...).
Середнє значення щільності визначається як:
Тоді центральна гранична теорема встановлює розподіл відстані між емпіричним середнім і середня як функція дисперсії і (асимптотично с ). Подивимося, як означає емпіричне значення поводиться як функція числа для гауссової щільності :
N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()
Це типова реалізація, середнє значення вибірки сходяться до середнього значення щільності (і в середньому таким чином, як задано центральною граничною теоремою). Нехай те ж саме зробить для парето-розподілу без середнього значення (підміна rnorm (N, 1,1); pareto (N, 1,1,1);)
Це також типове моделювання, час від часу середнє значення вибірки сильно відхиляється просто, як пояснено за допомогою інтегральної формули, у продукті , частота високих значень недостатньо малий, щоб компенсувати той факт висока. Отже, середнього значення не існує, а середня вибірка не збігається з яким-небудь типовим значенням, а про центральну граничну теорему нічого сказати.
Нарешті, зауважте, що центральна гранична теорема стосується емпіричного середнього, середнього, розміру вибірки і дисперсія. Отже, дисперсія також має існувати (див. відповідь kjetil b halvorsen для деталей).