У моїй роботі, коли люди посилаються на "середнє" значення набору даних, вони зазвичай посилаються на середнє арифметичне (тобто "середнє" або "очікуване значення"). Якби я надавав геометричну середню, люди, швидше за все, подумають, що я чинюсь чи не допомагаю, оскільки визначення "середнього" відомо заздалегідь.
Я намагаюся визначити, чи існує декілька визначень "медіани" набору даних. Наприклад, одним із визначень, наданих колегою для пошуку медіани набору даних з парною кількістю елементів, було б:
Алгоритм "А"
- Розділіть кількість елементів на два, закругніть вниз.
- Це значення є індексом медіани.
- тобто для наступного набору медіаною буде
5
. [4, 5, 6, 7]
Це, мабуть, має сенс, хоча аспект округлення здається дещо довільним.
Алгоритм 'B'
У будь-якому випадку, інший колега запропонував окремий алгоритм, який знаходився в його підручнику статистики (потрібно отримати ім’я та автора):
- Розділіть кількість елементів на 2 і збережіть копію цілих чисел з округленням і округленням. Назвіть їх
n_lo
іn_hi
. - Візьміть середнє арифметичне елементів у
n_lo
таn_hi
. - тобто для наступного набору медіаною буде
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Це здається неправильним, оскільки середнє значення 5.5
в цьому випадку насправді відсутнє в початковому наборі даних. Коли ми замінили алгоритм "A" на "B" в якомусь тестовому коді, він жахливо зламався (як ми і очікували).
Питання
Чи існує формальне "ім'я" для цих двох підходів до обчислення медіани набору даних? тобто "медіана меншої кількості двох" порівняно з "середньою середньою кількістю елементів-і-зробити-новим даними"?