Чому середній вік є кращою статистикою, ніж середній вік?


41

alt текст

alt текст

Зрозуміло, що медіана, здається, є статистикою вибору, коли мова йде про віки.

Я не в змозі пояснити собі, чому середнє арифметичне було б гіршою статистикою. Чому так?

Спочатку розміщено тут, бо я не знав, що цей сайт існує.


4
Здається, ви вже мали розумну відповідь на іншому сайті?
Шейн

1
@Shane: Але, можливо, різні сайти мають можливість отримати різні відповіді з різних точок зору?
whuber

Відповіді:


42

На мою думку, статистика не дає хорошої відповіді на це питання. Середнє значення може бути доречним, наприклад, у дослідженнях смертності, але вік не так просто виміряти, як можна подумати. Наприклад, люди похилого віку, неграмотні та люди в деяких країнах третього світу, як правило, складають вік до кратного 5 або 10.

Медіана більш стійка до таких помилок, ніж середня. Більше того, середній вік, як правило, становить від 20 до 40, але люди можуть дожити до 100 і більше (зростаюча і помітна частка населення сучасних країн зараз живе понад 100). Люди такого віку впливають на середній показник у 1,5 - 4 рази, ніж вони на середню, порівняно з дуже молодими людьми. Таким чином, медіана є дещо більш актуальною статистикою щодо розподілу за віком країни і трохи більше не залежить від рівня смертності та тривалості життя, ніж середня.

Нарешті, медіана дає нам трохи краще уявлення про те, як виглядає саме розподіл за віком: наприклад, коли ви бачите медіану 35 років, ви знаєте, що половина населення старше 35 років, і ви можете зробити висновок про деякі показники народжуваності, віки батьків тощо; але якщо середнє значення становить 35, ви не можете сказати стільки, тому що на 35 може вплинути велика кількість населення, наприклад, у віці 70 років, або, можливо, розрив чисельності населення в якомусь віковому діапазоні через стару війну чи епідемію.

Таким чином, з демографічних, а не статистичних причин, медіана виявляється більш гідною ролі омнібусного значення для підведення підсумків віку порівняно великого населення.


1
Я думаю, ви мали на увазі "Медіана стійкіша до таких помилок, ніж середня". Я погоджуюся з вашими коментарями, і я вважаю, що перепис США, як правило, повідомляє медіану для багатьох категорій в офіційних звітах (а не лише вік), в основному з тих же причин. Дохід, можливо, навіть кращий приклад, ніж вік, щоб проілюструвати такі моменти.
Енді Ш

Ви замінили факт - середнє значення чутливе до переживаючих / перекошених розподілів - для твердження про значення щодо переваги медіани над середньою. Насправді ви стверджували, що середнє значення не слід віддавати перевагу, оскільки воно не є медіаною (подібно до тих, хто каже, що слід використовувати лише середнє значення на симетричних розподілах, тобто коли середнє та медіану рівні).
Олексій

1
@ Алексис Я не дотримуюся вашої критики. Не могли б ви детальніше розробити? Зрештою, ця відповідь дає набагато більше, ніж «факт»: вона містить досить багато їх, разом із аналізом їх наслідків. І конкретно до того, до якого «твердження про значення» ви посилаєтесь?
whuber

Мене хвилює те, що фактичні характеристики середньої та медіани (наприклад, колишня чутлива до людей, що переживають люди, тобто "Люди такого віку мають 1,5 - 4 рази більший вплив на середнє значення, ніж вони на медіану порівняно з дуже молодими людьми"). перетворюються на значення щодо їх вартості, а саме "медіана дає нам трохи кращу картину того, як виглядає саме розподіл за віком". Перше - це факт, пізніше - оцінка цього факту. Мене хвилює питання переключення між ними. Більше: stats.stackexchange.com/questions/96371/…
Олексій

1
@ Алексис Зауважте, що це питання стосується не використання середньої чи середньої медіа в цілому, а їх використання в оцінці вікових розподілів. Зауважте, що в самому початку моя відповідь визнає, що немає панацеї: що засіб корисне і актуальне для конкретних цілей. Я не думаю, що я вчинив той гріх, у якому ви мене звинувачуєте, а це - розпливчасте застосування "кращого": я ретельно визначив, як медіана та середня різниця в цьому контексті . Мені здається, що у вас виникає проблема, що стосується засобів проти медіанів, але це не місце для цього.
whuber

16

Джон дав вам гарну відповідь на веб-сайті сестри.

Одним з аспектів, який він не зазначив прямо, є стійкість: медіана як міра центрального розташування робить кращу, ніж середня, оскільки вона має більш високу точку розбиття (50%), тоді як середня величина має дуже низький показник 0 (детальніше див. У Вікіпедії ).

Інтуїтивно це означає, що окремі погані спостереження не перекосують медіану, тоді як вони це є середнім.


9
Розбивка не є проблемою для описової статистики для всього населення.
whuber

12

Ось моя відповідь уперше опублікована на math.stackexchange:

Медіана - це те, що багато хто насправді має на увазі, коли вони говорять "середнє". Простіше тлумачити медіану: половина населення вище цього віку, а половина - нижче. Середина - трохи більш тонка.

Люди шукають симетрію і іноді нав'язують симетрію, коли її немає. Розподіл віку за популяцією далеко не симетричний, тому середня величина може вводити в оману. Вікові розподіли - це щось на зразок піраміди. Багато дітей, не багато людей похилого віку. (Або, принаймні, так це відбувається у певному стані. У США покоління бебі-буму після Другої світової війни спотворювало цей розподіл у міру старіння. Деякі люди називають це "пірамідою квадратиків", тому що бумери зробили вершина піраміди ширша, ніж була в минулому.)

При асиметричному розподілі може бути краще повідомити медіану, оскільки це симетрична статистика. Медіана симетрична, навіть якщо розподіл вибірки відсутній.


У якому сенсі медіана «симетрична» статистика? Це, звичайно, не так, що розподіли, як правило, симетрично розподіляються щодо своїх медіанів (а також про їхні засоби). Якщо ви маєте на увазі лише те, що ви написали в іншому коментарі про те, що "медіана розділяє населення навпіл" (що визначає медіану), ваш аргумент звучить круговоротно: медіана хороша тим, що медіана є медіаною!
whuber

7

Чому сокира краще, ніж капелюшок?

Це схоже на ваше запитання. Вони просто мають на увазі і роблять різні речі. Якщо говорити про медіанів, то історія, яку вони намагаються передати, модель, яку вони намагаються застосувати до даних, відрізняється від способів.


4

Для конкретного прикладу розглянемо середній вік для Конго (ДРК) та Японії. Один спустошений громадянською війною, інший добре розвинений зі старінням населення. Середнє значення не є надзвичайно цікавим для порівняння яблук з яблуками. З іншого боку, медіана може бути інформативною як міра центральної тенденції, оскільки за визначенням ми наполовину вище, наполовину нижче. Стаття у Вікіпедії про піраміду народонаселення може бути освічуючою (див. Розділи про вибухи молоді, старіння населення).


3

Репозитарії даних про охорону здоров'я в США рухаються до АГЕ у форматі років на п’ять років через вплив норм HIPAA щодо навмисного засліплення та маскування даних з особистих причин конфіденційності.

Враховуючи цей виклик тому, що було раніше (до HIPAA) досить масштабним рівнем елемента даних вимірювання, заснованого на різниці між датою народження та датою смерті, нам може знадобитися переглянути AGE як змінну шкали, яка може бути параметрично описані взагалі в наборах даних про охорону здоров’я, на користь моделей, які описують ВІР непараметрично, як порядковий рівень вимірювання. Я знаю, що це може здатися "зверху" багатьом фракціям у спільноті біомедичної інформатики, але ця ідея може мати певну заслугу в плані "інтерпретації", як описано в коментарях вище.

Що з усією аналітичною потужністю, яка доступна для непараметричних підходів? Так, це правда, що кожен з нас майже повсюдно спробує застосувати методи GLM (загальна лінійна модель) до змінної, яка представляє нам себе в дистрибутивах, які ведуть себе так, як це робить AGE.

При цьому форму цього розподілу та те, як ця форма визначається за рахунок ефектів багаторазової взаємодії на багатовимірні центроїди та підгрупи центроїдів, що присутні в розподілі, слід враховувати. Що робити з цими дуже складними наборами даних?

Коли елемент даних не відповідає "припущенням моделі", ми прогресивно скануємо (я сказав поперек, не вниз; ми повинні бути рівними можливостями роботодавців методу; кожен інструмент надходить із заводу з формою, яка відповідає правилам функцій) список інших можливих моделей, щоб знайти ті, які "не провалюють" тести припущень.

У нинішньому форматі у наборах даних про охорону здоров’я нам дійсно потрібно (як спільнота візуалізації даних) розробити більш стандартну модель поводження з ВІЛ за п'ятирічні кроки (5YI). Я голосую за візуалізацію даних AGE (з огляду на новий формат 5YI) - використовувати гістограми та графіки вікон та вусів. Так, це означає медіану. (Каламбур не призначений!)

Іноді малюнок дійсно коштує тисячі слів, а абстракт - це підсумок тисячі слів. Сюжет коробки та вусів показує "форму" розподілу як змістовне символічне зображення гістограми майже на знаковому рівні роздільної здатності. Порівнюючи розподіл приросту п’ятирічного віку, показуючи графіки "рядом" з вікном та вусами, де можна миттєво візуально порівнювати візерунки від 75-го до 50-го (медіана) до нижнього 25-го доля, створить елегантний "універсальний стандарт" для порівняння вікових груп світ. Для тих із нас, хто продовжує насолоджуватися хвилюванням подання даних за допомогою текстової механіки табличного відображення, діаграма "стебло та лист" також може бути корисною, коли використовується як анімований елемент візуальної графіки в "блискучій лінії"

ВЗАГАЛІСТЬ ДОСЛІННЯ Це потрібно додатково вивчити за допомогою більш потужних обчислювальних алгоритмів, які зараз доступні.


1
Це добре написаний пост, але, схоже, не має жодного зв’язку з початковим запитанням.
Енді Ш

Я думаю, що це опосередковано, але належним чином вирішує явний намір питання, @Andy. Вина, якщо така є, полягає в самому питанні, яке є неоднозначним, оскільки не визначає сенсу, в якому середнє може бути "гіршим", ніж медіана. Отже, гарною відповіддю слід вивчити це та розглянути мету узагальнення розподілу за віком з єдиною статистикою. Тут це, природно, веде до дискусії про те, що може означати "вік" та як доцільно порівняти розподіл за віком.
whuber

3

Я не думаю, що є вагома описова причина для вибору середньої над середньою для вікових розподілів. Є одна практичність при порівнянні повідомлених даних.

Багато країн повідомляють про своє населення у вікових інтервалах 5 років із відкритим діапазоном. Це спричиняє певні труднощі при обчисленні середнього значення з інтервалів, особливо для найменшого інтервалу (на який впливають показники смертності немовлят), верхнього "інтервалу" (що означає середній інтервал 80+ "?) Та найближчих верхніх інтервалів ( середнє значення кожного інтервалу зазвичай нижче середнього).

Набагато простіше оцінити медіану, інтерполюючи всередині медіанного інтервалу, часто наближаючи, припускаючи плоский або трапецієподібний розподіл за цим інтервалом (рівень смертності у багатьох країнах порівняно низький приблизно середній вік, що робить це більш розумним наближенням, ніж воно для молодих чи старих).


3

Щоб дати корисну відповідь на оригінальне запитання, ми повинні знати питання, яке стоїть за цим питанням. Іншими словами, "Чому ви хочете отримати якусь підсумкову статистику, яка порівнює віковий розподіл у різних країнах?" Медіана може бути найбільш корисною для деяких питань. Середина може бути найбільш корисною для інших. І, мабуть, є питання, де "відсоток вище (або нижче) якогось конкретного віку" був би найбільш корисною статистикою.


2

Ви отримуєте хороші відповіді тут, але дозвольте мені лише додати свої 2 копійки. Я працюю у фармакометрії, яка займається такими речами, як об'єм крові, швидкість виведення, базовий рівень дії препарату, максимальний ефект наркотиків та такі параметри.

Ми робимо різницю між змінними, які можуть приймати будь-яке значення плюс чи мінус, порівняно зі значеннями, які можуть бути лише позитивними. Прикладом змінної, яка може приймати будь-яке значення, плюс чи мінус, може бути ефект наркотиків, який може бути позитивним, нульовим або негативним. Прикладом змінної, яка лише реально може бути позитивною, є об'єм крові або елімінація наркотиків.

Ми моделюємо ці речі за допомогою розподілів, які є як нормальними, так і лонормальними, нормальними для будь-яких цінних та лонормальними для єдино позитивних. Лонормальне число - це число E, прийняте на потужність нормально розподіленого числа, і тому воно може бути лише позитивним.

Для нормально розподіленої змінної медіана, середнє значення та режим - це одне і те ж число, тому не має значення, яким ви користуєтесь. Однак для логічно розподіленої змінної середнє значення більше як медіани, так і режиму, тому це не дуже корисно. Насправді медіана - це місце, де лежить в основі нормаль, і це набагато привабливіший захід.

Оскільки вік (імовірно) ніколи не може бути негативним, лонормальне розподіл, ймовірно, є кращим його описом, ніж нормальне, тому медіана (Е до середнього рівня основної норми) є більш корисною.


5
Розподіл віку, звичайно, не є нормальним.
Роб Хайндман

1
Я не думаю, що ви можете зробити висновок, що вік звичайно розподіляється лише з того, що він завжди позитивний. Гамма та дистрибутив Weibull також завжди позитивні, то чому б не вибрати їх?
nico

@Rob: @nico: Я впевнений, що ти маєш рацію. Це був поганий вибір прикладу. Зазвичай ми моделюємо фармакометричні параметри, такі як об'єм та кліренс.
Майк Данлаве

2

Мене вчили, що медіану слід застосовувати з діапазоном і середнім значенням зі стандартним відхиленням. Коли ми говоримо про вік, я вважаю, що діапазон є більш релевантним способом виразити поширення і легшим для розуміння для більшості. Наприклад, серед досліджуваної популяції середній вік становив 53 (SD 5.4) або середній вік - 48 (діапазон 23-77). З цієї причини я вважаю за краще використовувати медіану, а не середню. Але я був би дуже зацікавлений у тому, що скаже статистик або статистика про використання середнього з діапазоном? Це я бачу зовсім небагато в наукових працях.


Ласкаво просимо в CV, Сьюзен. Якщо ви опублікували це, намагаючись отримати відповіді, будь ласка, видаліть його та повторно опублікуйте його як нове запитання. Інструкції щодо використання цього веб-сайту доступні в нашому довідковому центрі .
whuber

1

Відповідь Джона на math.stackexchange можна розглядати наступним чином:

Якщо ви маєте косий розподіл, медіана може бути кращою підсумковою статистикою, ніж середня.

Зауважте, що коли він говорить, що немовлят більше, ніж дорослих, він по суті припускає, що розподіл за віком - це перекошений розподіл.


Насправді я думаю, що нині косоокість у багатьох країнах більше спрямована на людей похилого віку, а не на грудей.
JM не є статистиком

Можливо, вона перекошена в інший бік, але загальна точка стоїть. Для перекошених розподілів медіана може мати більше сенсу, ніж середня.

Я щойно оновив свою відповідь на math.stackexchange, щоб підкреслити саме цей момент. Люди шукають симетрію і можуть неправильно нав’язати симетрію, коли її немає. Коли ви повідомляєте про медіану, ви даєте відповідь, яка симетрична - медіана розбиває населення навпіл, - хоча розподіл не симетричний.
Джон Д. Кук

Ця відповідь мені завжди здається дещо шаленою: коли розподіли не перекошені (тобто вони симетричні), середнє значення дорівнює медіані, тому мовляв, що медіана «краща», коли розподіл перекошений - це зворотний спосіб сказати «тільки використовувати медіана ».
Олексій

1

Я сподіваюся, що середній вік буде впливати на людей, що переживають ваш набір даних, але це не стосується середнього віку. Візьмемо для прикладу набір даних про вакцинованих пацієнтів: 1,2,3,4,4,5,6,6,6,78 років середнє значення було б: 11,5, а середній вік цих пацієнтів - 4,5. на цей середній вік вплинув чужий 78. Медіана найкраща при роботі з наборами даних косого розподілу.


Дивіться мою відповідь на Користувача28.
Олексій

0

Безумовно, що стосується демографічного аналізу, я думаю, що як середня, так і медіана буде цінні, особливо в поєднанні один з одним, якщо ви шукаєте людей, що переживають люди, або райони зростання, які можуть бути неправильно помічені медіаною. У громадах з великою громадою пенсіонерів або в районі з вибухом народжуваності одна медіана може не дати тобі всієї картини, і саме тут середнє значення може бути дуже корисним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.