Чому середня тенденція є більш стійкою у різних пробах, ніж середня?


22

Розділ 1.7.2 Розкриття статистики за допомогою R Енді Філдса та ін., Перераховуючи середні чесноти проти медіани, констатує:

... середнє значення має стійкість у різних зразках.

Це після пояснення багатьох чеснот медіани, наприклад

... На медіану відносно не впливають екстремальні бали на будь-якому кінці розподілу ...

Зважаючи на те, що на медіану відносно не впливають екстремальні показники, я вважав би, що вона є стабільнішою у зразках. Тож я був спантеличений твердженням авторів. Для підтвердження я запустив симуляцію - я генерував 1М випадкових чисел і відбирав 100 чисел 1000 разів і обчислював середнє значення та медіану кожного зразка, а потім обчислював sd цих вибіркових засобів та медіанів.

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

Як бачимо, засоби більш щільно розподіляються, ніж медіани.

введіть тут опис зображення

На зображенні, що додається, червона гістограма призначена для медіанів - як ви бачите, вона менш висока і має товстіший хвіст, що також підтверджує твердження автора.

Я, однак, від цього спалахнув! Яким чином медіана, яка є більш стійкою, має тенденцію в кінцевому рахунку сильно відрізнятися між зразками? Це здається парадоксальним! Будь-які відомості будуть вдячні.


1
Так, але спробуйте, відібравши вибірки з числа <- rt (n = 10 ** 6, 1.1). Цей розподіл T1.1 дасть купу екстремальних значень, не обов'язково збалансовані між позитивними і негативними (так само , як хороший шанс отримати ще одну позитивну величину крайню як від'ємне значення для крайнього балансу), що призведе до гігантської дисперсії в . Це те, що медіана щита проти. Нормальний розподіл навряд чи дасть якісь особливо екстремальні значення, щоб розтягнути ˉ x розподіл ширше, ніж середнє. x¯x¯
Дейв

10
Заява автора загалом не відповідає дійсності. (Ми тут отримали багато питань, пов’язаних з помилками в книгах цього автора, тому це не є несподіванкою.) Стандартні контрприклади зустрічаються серед "стабільних розподілів" , де середнє значення є не що інше, але "стабільне" (у будь-якому розумному розумінні термін) і медіана набагато стійкіша.
качан

1
"... середнє значення має стійкість у різних вибірках." це дурницьке твердження. "стабільність" недостатньо визначена. Середнє значення (вибірки) дійсно досить стабільне в одному зразку, оскільки це не випадкова кількість. Якщо дані "нестабільні" (сильно змінні?), Середнє значення є і "нестабільним".
AdamO

1
На це питання, ймовірно, відповідає детальний аналіз, запропонований на сайті stats.stackexchange.com/questions/7307 , де той самий питання задається певним чином (де сенс "стабільного" добре визначений).
whuber

2
Спробуйте замінити rnormна rcauchy.
Ерік Тауерс

Відповіді:


3

Медіана є максимально надійною для людей, що не мають сили, але дуже чутлива до шуму. Якщо ввести невелику кількість шуму в кожну точку, вона буде входити до медіани без розкриття до тих пір, поки шум буде досить малим, щоб не змінити відносного порядку точок. Поки що це навпаки. Шум усереднюється, але окремий зовнішній вигляд може змінювати середнє значення довільно.

Ваш тест в основному вимірює стійкість до шуму, але ви можете легко створити його там, де медіана виходить краще. Якщо ви хочете, щоб оцінювач був надійним як для вихованих, так і для шумів, просто викиньте верхню і нижню третину і в середньому залиште.


Чи існує більш конкретна назва цього алгоритму, ніж " середня обрізана 33% "?
Девід Кері

25

Як говорили @whuber та інші, твердження загалом не відповідає дійсності. І якщо ви готові бути більш інтуїтивно зрозумілим - я не можу йти в ногу з глибокими математичними вундерками тут - ви можете поглянути на інші способи, середні стабільні чи ні. Для цих прикладів припустіть непарну кількість балів, щоб я міг зберігати свої описи послідовними та простими.

  1. Уявіть, що ви поширили точки на числовій лінії. А тепер уявіть, що ви берете всі точки над серединою і переміщуєте їх до 10x своїх значень. Медіана незмінна, середнє значення значно перемістилося. Тож медіана здається більш стабільною.

  2. Тепер уявіть, що ці моменти досить розповсюджені. Перемістіть центральну точку вгору і вниз. Одномоментний хід змінює медіану на одну, але ледве перемістив середнє. Медіана тепер здається менш стійкою і більш чутливою до невеликих рухів однієї точки.

  3. А тепер уявіть, як взяти найвищу точку і плавно перемістити її від найвищої до найнижчої точки. Середнє також плавно рухатиметься. Але медіана не буде рухатися постійно: вона взагалі не рухатиметься, поки ваша висока точка не стане нижчою за попередню медіану, потім вона почне слідувати за точкою, поки не опуститься нижче наступної точки, потім медіана пристане до цієї точки і знову не зробиться не рухатись, продовжуючи рухати точку вниз. [Відредаговано за коментарем]

Тож різні перетворення ваших точок призводять до того, що середнє чи середнє значення в певному сенсі виглядають менш плавними або стійкими. Математичні важкі гравці тут показали вам дистрибутив, з якого ви можете пробувати вибірки, що більше відповідає вашому експерименту, але, сподіваємось, ця інтуїція також допомагає.


1
Щодо пункту 3: Чи не буде медіана також плавно рухатися? Скажіть, початковий набір точок є [1, 3, 5, 7, 9]. Спочатку медіана є 5. Це залишатиметься медіаною до тих пір, поки п'ята точка (спочатку 9) не опуститься нижче 5, після чого медіана буде плавно слідувати п’ятій точці по мірі її зменшення, поки не потрапить 3, і в якій точці медіана залишиться 3. Отже, хоча точка, яка визначає медіану, є «стрибкою» (від третьої точки, до п’ятої точки, до другої точки), фактичне значення медіани не має стрибка / розриву.
Скотт М

@ScottM Ви, здається, праві. Не впевнений, чому я думав, що це стрибне. Я переформулюю, коли отримаю можливість.
Уейн

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR. Асимптотична дисперсія середньої вибірки та медіана вибірки задаються відповідно:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

Тому у нас є:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


Дивовижно! Спасибі.
Алок Лал

4

Коментар: Просто щоб повторити ваше моделювання, використовуючи розподіл, для якого SD-засоби та медіани мають протилежний результат:

Зокрема, numsтепер із розподілу Лапласа (його також називають "подвійним експоненціалом"), який можна імітувати як різницю двох експоненціальних розподілів з однаковою швидкістю (тут норма за замовчуванням 1). [Можливо, дивіться Вікіпедію про розповсюдження Лапласа.]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

введіть тут опис зображення

Примітка: Ще один простий можливість, прямо згадується в засланні @ whuber, є Коші, які можуть бути змодельовані як розподіл т Стьюдента з одним ступенем свободи, rt(10^6, 1). Однак його хвости настільки важкі, що зробити приємну гістограму проблематично.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.