Розділ 1.7.2 Розкриття статистики за допомогою R Енді Філдса та ін., Перераховуючи середні чесноти проти медіани, констатує:
... середнє значення має стійкість у різних зразках.
Це після пояснення багатьох чеснот медіани, наприклад
... На медіану відносно не впливають екстремальні бали на будь-якому кінці розподілу ...
Зважаючи на те, що на медіану відносно не впливають екстремальні показники, я вважав би, що вона є стабільнішою у зразках. Тож я був спантеличений твердженням авторів. Для підтвердження я запустив симуляцію - я генерував 1М випадкових чисел і відбирав 100 чисел 1000 разів і обчислював середнє значення та медіану кожного зразка, а потім обчислював sd цих вибіркових засобів та медіанів.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Як бачимо, засоби більш щільно розподіляються, ніж медіани.
На зображенні, що додається, червона гістограма призначена для медіанів - як ви бачите, вона менш висока і має товстіший хвіст, що також підтверджує твердження автора.
Я, однак, від цього спалахнув! Яким чином медіана, яка є більш стійкою, має тенденцію в кінцевому рахунку сильно відрізнятися між зразками? Це здається парадоксальним! Будь-які відомості будуть вдячні.
rnorm
на rcauchy
.