Чому середнє арифметичне менше, ніж середнє значення розподілу, у звичайному нормальному розподілі?


13

Отже, у мене є випадковий процес генерування лог-нормально розподілених випадкових величин . Ось відповідна функція щільності ймовірності:X

Малюнок, що представляє функцію логічної норми щільності ймовірності

Я хотів оцінити розподіл на кілька моментів того початкового розподілу, скажімо, 1-й момент: середнє арифметичне. Для цього я намалював 10000 випадкових змінних 10000 разів, щоб я міг обчислити 10000 оцінку середнього арифметичного.

Є два різні способи оцінити це значення (принаймні, це я зрозумів: я можу помилитися):

  1. шляхом простого обчислення середнього арифметичного звичайним способом:
    X¯=i=1NXiN.
  2. або попередньо оцінивши та з основного нормального розподілу: а потім середнє значення якσμ
    μ=i=1Nlog(Xi)Nσ2=i=1N(log(Xi)μ)2N
    X¯=exp(μ+12σ2).

Проблема полягає в тому, що розподіли, відповідні кожній з цих оцінок, систематично відрізняються:

Два оцінювачі дають різні розподіли, як показано на малюнку.

Середнє "рівне" (представлене червоною пунктирною лінією) забезпечує, як правило, нижчі значення, ніж значення, отримане з експоненціальної форми (зелена рівна лінія). Хоча обидва засоби обчислюються за точно однаковим набором даних. Зверніть увагу, що ця різниця є систематичною.

Чому ці розподіли не рівні?


які ваші справжні параметри для та ? μσ
Крістоф Ганк

μ=3 і , але зауважте, що мені цікаво оцінити ці параметри, отже, підхід Монте-Карло замість того, щоб обчислювати річ із цих вихідних чисел. σ=1.5
JohnW

впевнений, це для тиражування ваших результатів.
Крістоф Ганк

4
Цікаво, що це явище не має нічого спільного з ненормальністю. З огляду на додатні числа з логарифмами , добре відомо їх середнє арифметичне (AM) ніколи не менше їх середнього геометричного (GM) . В іншому напрямку AM ніколи не перевищує GM, помножене на де - дисперсія . Таким чином, пунктирна червона крива повинна лежати зліва від суцільної зеленої кривої для будь-якого батьківського розподілу (описуючи додатні випадкові числа). xiyixi/nexp(yi/n)exp(sy2/2)sy2yi
whuber

Якщо більша частина середньої величини походить від крихітної ймовірності величезних чисел, середнє арифметичне значення кінцевої вибірки може занижувати середнє значення сукупності з високою ймовірністю. (Очікуємо, що це неупереджено, але велика ймовірність невеликої недооцінки та мала ймовірність великого перевищення оцінки.) Це питання також може стосуватися цього: stats.stackexchange.com/questions/214733/…
Меттью Ганн

Відповіді:


12

Два оцінювачі, які ви порівнюєте, - це метод оцінювання моментів (1.) та MLE (2.), дивіться тут . Обидва є послідовними (тому для великих вони, певно, можуть бути близькими до справжнього значення ).Nexp[μ+1/2σ2]

Для оцінювача MM це прямий наслідок Закону великих чисел, який говорить, що . Для MLE теорема безперервного відображення означає, що як та .X¯pE(Xi)

exp[μ^+1/2σ^2]pexp[μ+1/2σ2],
μ^pμσ^2pσ2

Однак MLE не є об'єктивним.

Насправді, нерівність Дженсена говорить про те, що для малих слід очікувати, що MLE буде зміщений вгору (див. Також моделювання нижче): та є (в останньому випадку майже , але з мізерним зміщенням для , оскільки неупереджений оцінювач ділиться на ), добре відомі як неупереджені оцінки параметрів нормального розподілу та (я використовую капелюхи для позначення оцінок).Nμ^σ^2N=100N1μσ2

Отже, . Оскільки експоненціальна є опуклою функцією, це означає, що E(μ^+1/2σ^2)μ+1/2σ2

E[exp(μ^+1/2σ^2)]>exp[E(μ^+1/2σ^2)]exp[μ+1/2σ2]

Спробуйте збільшити до більшої кількості, яка повинна зосереджувати обидва розподіли навколо справжнього значення.N=100

Дивіться цю ілюстрацію Монте-Карло для в R:N=1000

введіть тут опис зображення

Створено:

N <- 1000
reps <- 10000

mu <- 3
sigma <- 1.5
mm <- mle <- rep(NA,reps)

for (i in 1:reps){
  X <- rlnorm(N, meanlog = mu, sdlog = sigma)
  mm[i] <- mean(X)

  normmean <- mean(log(X))
  normvar <- (N-1)/N*var(log(X))
  mle[i] <- exp(normmean+normvar/2)
}
plot(density(mm),col="green",lwd=2)
truemean <- exp(mu+1/2*sigma^2)
abline(v=truemean,lty=2)
lines(density(mle),col="red",lwd=2,lty=2)

> truemean
[1] 61.86781

> mean(mm)
[1] 61.97504

> mean(mle)
[1] 61.98256

Зауважимо, що хоча обидва розподілу зараз (більш-менш) зосереджені навколо справжнього значення 2/2 , MLE, як це часто буває, є більш ефективним.exp(μ+σ2/2)

Дійсно можна чітко показати, що це має бути так, порівнюючи асимптотичні відхилення. Ця дуже приємна відповідь CV говорить нам, що асимптотична дисперсія MLE - той час як для оцінки ОМ за допомогою прямого застосування CLT, застосованого до середніх зразків, є дисперсія нормального нормального розподілу, Друга більша за першу, тому що які .

Vt=(σ2+σ4/2)exp{2(μ+12σ2)},
ехр{сг2}>1+σ2+σ4/2,ехр(х)=Ея = 0 хя/я! σ2>0
exp{2(μ+12σ2)}(exp{σ2}1)
exp{σ2}>1+σ2+σ4/2,
exp(x)=i=0xi/i!σ2>0

Щоб побачити, що MLE дійсно упереджений для малого , я повторюю моделювання для та 50 000 реплікацій та отримую модельоване зміщення таким чином:NN <- c(50,100,200,500,1000,2000,3000,5000)

введіть тут опис зображення

Ми бачимо , що ОМП дійсно серйозно зміщений для малих . Я трохи здивований про кілька непередбачуваної поведінки упередженості оцінки ММ як функції від . Модельоване зміщення для малого для ММ, ймовірно, викликане сторонніми людьми, які впливають на незареєстрований оцінювач ММ сильніше, ніж MLE. За один симуляційний цикл виявилися найбільші оцінкиN N = 50NNN=50

> tail(sort(mm))
[1] 336.7619 356.6176 369.3869 385.8879 413.1249 784.6867
> tail(sort(mle))
[1] 187.7215 205.1379 216.0167 222.8078 229.6142 259.8727 

Ага гаразд. Мені справді не прийшло в голову, що один метод може бути ефективнішим, ніж інший за тими ж даними. Тому я міг би сказати, що рішення MLE швидше конвергується щодо ніж інший метод, якщо я правильно зрозумів. Спасибі! N
JohnW

1
Я зробив невелику редакцію щодо упередженості. Для зміщення справді негативні для оцінки ММ, але це не схоже на загальний результат, побачити сюжет для зміщення в залежності від . NN=100N
Крістоф Хенк

2
Що ж, я теж дивуюсь, що між двома методами існує така велика різниця, однак цей приклад абсолютно ідеальний, щоб продемонструвати, чому "просто усереднення матеріалів" може бути жахливим!
JohnW

1
@JohnW, я додав трохи аналітичного пояснення, чому MLE має меншу дисперсію.
Крістоф Хенк

1
Невідповідність випливає з того, що зміщення є кінцевою проблемою вибірки, тобто воно зникає, коли відходить до нескінченності. Порівняння асимптотики (як випливає з назви) порівняння показує лише те, що відбувається в межі, як . N NN
Крістоф Хенк
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.