Чи існує більше однієї "серединної" формули?


16

У моїй роботі, коли люди посилаються на "середнє" значення набору даних, вони зазвичай посилаються на середнє арифметичне (тобто "середнє" або "очікуване значення"). Якби я надавав геометричну середню, люди, швидше за все, подумають, що я чинюсь чи не допомагаю, оскільки визначення "середнього" відомо заздалегідь.

Я намагаюся визначити, чи існує декілька визначень "медіани" набору даних. Наприклад, одним із визначень, наданих колегою для пошуку медіани набору даних з парною кількістю елементів, було б:

Алгоритм "А"

  • Розділіть кількість елементів на два, закругніть вниз.
  • Це значення є індексом медіани.
  • тобто для наступного набору медіаною буде 5.
  • [4, 5, 6, 7]

Це, мабуть, має сенс, хоча аспект округлення здається дещо довільним.

Алгоритм 'B'

У будь-якому випадку, інший колега запропонував окремий алгоритм, який знаходився в його підручнику статистики (потрібно отримати ім’я та автора):

  • Розділіть кількість елементів на 2 і збережіть копію цілих чисел з округленням і округленням. Назвіть їх n_loі n_hi.
  • Візьміть середнє арифметичне елементів у n_loта n_hi.
  • тобто для наступного набору медіаною буде (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Це здається неправильним, оскільки середнє значення 5.5в цьому випадку насправді відсутнє в початковому наборі даних. Коли ми замінили алгоритм "A" на "B" в якомусь тестовому коді, він жахливо зламався (як ми і очікували).

Питання

Чи існує формальне "ім'я" для цих двох підходів до обчислення медіани набору даних? тобто "медіана меншої кількості двох" порівняно з "середньою середньою кількістю елементів-і-зробити-новим даними"?


16
Я ніколи не бачив, щоб алгоритм "А" вважався медіаною. Не повинно бути проблемою, що описова статистика центральної тенденції даних не є серед самих даних: зрештою, більшість засобів також не є в даних. Більш фундаментальною властивістю, яку ми хотіли б мати медіаною, є те, що вона не змінюється при зміні послідовності даних, оскільки впорядкування даних від найменших до найбільших чи найбільших до найменших - це довільна справа смаку. З цієї причини більшість авторів визначають медіану як в алгоритмі "B", оскільки це, безумовно, найпростіша можлива процедура інваріантного порядку.
whuber

3
@whuber Алгоритм 'A' іноді називають низькою медіаною . Звичайно, існує відповідна середня середня. Зазвичай медіана - це середнє значення двох (яке може бути, а може і не бути одним елементом з набору, що розраховується медіана).
користувач603

8
Вдалий час і місце, щоб повторити коментар, що два центральних значення в упорядкованому зразку з парною кількістю спостережень - як 3 і 4 в 1, 2, 3, 4, 5, 6 - слід вважати коміками (незалежно охарактеризований С. М. Стіглером, Р. Коенкером та, без сумніву, іншими).
Нік Кокс

3
Чи не відсутнє в обох алгоритмах вирішальний крок сортування даних?
Еміль

3
Якщо вам потрібна ваша "медіана", щоб вона завжди була елементом набору даних, ви, можливо, шукаєте медоїд .
Ільмарі Каронен

Відповіді:


23

TL; DR - Мені невідомі конкретні назви, що даються різним оцінкам зразків медіанів. Методи оцінки вибіркової статистики за деякими даними досить нечіткі, і різні ресурси дають різні визначення.

У вступі Хогга, Маккіна та Крейга до математичної статистики автори дають визначення медіанів випадкових вибірок , але лише у випадку, якщо є непарна кількість вибірок! Автори пишуть

нY(н+1)/2

Yii

н

Алгоритм В має властивість, що половина даних падає вище значення, а половина даних падає нижче значення. Зважаючи на визначення медіани випадкової величини , це здається приємним.


Незалежно від того, чи певний оцінювач розбиває одиничні тести, є властивістю одиничних тестів - одиничні тести, написані на конкретному оцінці, не обов'язково будуть виконані, коли ви замінюєте інший оцінювач. В ідеальному випадку одиничні тести були обрані тому, що вони відображають критичні потреби вашої організації, а не через аргументацію доктрина до дефініцій.


2
(+1) Ми також можемо додати це (1) Коли значення приходять з вагою, то визначення медіанів в принципі і на практиці повинно також охоплювати це. (Поки що у відповідях зараз всі ваги рівні, тому нематеріальні.) Хоча лінійна інтерполяція у сукупній вазі найпростіша, є ситуації, коли інші види інтерполяції можуть мати сенс. (2) Більш суворі визначення медіани зазвичай мають на меті охоплювати дискретні, безперервні та гібридні розподіли, у тому числі ті, що мають десь сприйми.
Нік Кокс

25

Що говорить @Sycorax

Власне кажучи, існує напрочуд багато визначень загальних квантилів, зокрема, також медіанів. Hyndman & Fan (1996, американський статистик ) дають огляд, який є AFAIK все ще вичерпним. Різні типи не мають формальних назв. Можливо, вам просто потрібно буде зрозуміти, який тип ви використовуєте. (Це часто не має великої різниці з наборами даних реалістичних розмірів.)

Зауважте, що прийнято мати значення, яке не присутнє в наборі даних як медіана, наприклад, 5,5 як медіана для (4, 5, 6, 7). Це поведінка за замовчуванням для R:

> median(4:7)
[1] 5.5

R median()за замовчуванням використовує тип 7 ​​класифікації Hyndman & Fan.


6
+1 за "Це часто не має великої різниці з наборами даних реалістичних розмірів." Я вкраду це замість мого звичайного, "якщо це змінює істотне значення, вам, мабуть, потрібно більше даних". :)
Джейсон

1
Якщо у вас є двійкова змінна зі значеннями 0, 1 (скажімо) і приблизно з однаковою кількістю 0s та 1s (середнє значення близько 0,5), то великий розмір вибірки не обов'язково зупинить повідомлений медіані гортання вперед і назад між 0, 0,5 та 1. Мостеллер і Тукі ( Аналіз даних та регресія 1977) наводять сильно бімодальні та майже симетричні розподіли як випадки, коли медіана може не вести себе особливо добре.
Нік Кокс

3

У R-х mad функції він використовує терміни "ло-медіана" для опису алгоритму A, "хай-медіана" для опису замість округлення, а просто "медіану" для опису алгоритму B (що, як зазначають інші, на сьогоднішній день найпоширеніше визначення).

Цікаво, що такої опції у median()функції R немає ! (Але R quantile()має typeдля тонкого контролю.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.