Яке «середнє» значення використовувати і коли?


197

Отже, маємо середнє арифметичне (AM), середнє геометричне (GM) і середнє гармонічне (HM). Їх математичне формулювання також добре відоме разом із пов’язаними з ними стереотипними прикладами (наприклад, середнє значення гармонії та його застосування для проблем, пов'язаних із швидкістю).

Однак питання, яке мене завжди заінтригувало, - це "як я вирішую, яке значення є найбільш підходящим для використання в заданому контексті?" Повинно бути хоча б якесь правило, щоб зрозуміти застосовність, і все ж найпоширеніша відповідь, яку я натрапив, це: "Це залежить" (але від чого?).

Це може здатися досить тривіальним питанням, але навіть середньошкільні тексти не змогли пояснити це - вони лише дають математичні визначення!

Я вважаю за краще англійське пояснення перед математичним - простий тест був би "чи зрозуміла б ваша мама / дитина?"


20
Це, можливо, спрощує, але я завжди використовував дальність і спостереження. Якщо діапазон однаковий = AM (порівняйте бали 0-100, 0-100), якщо діапазон різний, але спостереження те саме = GM (порівняйте бали 1-5, 0-10), якщо діапазон однаковий, але спостереження різні = HM (швидкість руху автомобіля на різних одиницях, висота двох сходів, інші "ставки").
Брендон Бертелсен

> "Це залежить" (але від чого?) Це залежить від алгоритму обробки даних.
Максон

Це не просто вибір, який означає використовувати. Це також вибір того, який набір підсумкової статистики для опису сукупності чи процесу, що цікавить. Не варто думати, що все, що потрібно, - це одне число, яке описує щось, можливо, великої складності.
JimB

Відповіді:


160

Ця відповідь може мати трохи більш математичний вигин, ніж ви шукали.

Важливо визнати, що всі ці засоби - це просто середнє арифметичне в маскуванні .

Важливою характеристикою для визначення того, який (якщо такий є!) З трьох поширених засобів (арифметичного, геометричного чи гармонічного) є «правильним» значенням, є знайти «структуру добавок» у розглянутому питанні.

Іншими словами, припустимо, що нам надано деякі абстрактні величини , які я називатиму "вимірюваннями", дещо зловживаючи цим терміном нижче для послідовності. Кожен з цих трьох засобів може бути отриманий шляхом (1) перетворення кожного в деякий , (2) взяття середнього арифметичного і потім (3) перетворення назад до початкової шкали вимірювання.х1,х2,,хнy iхiуi

Середнє арифметичне : Очевидно, ми використовуємо перетворення "тотожність": . Отже, кроки (1) і (3) є тривіальними (нічого не робиться) і .ˉ x A Mуi=хiх¯АМ=у¯

Геометричне середнє : Тут адитивна структура є на логарифмах оригінальних спостережень. Отже, ми беремо а потім, щоб отримати GM на кроці (3), ми перетворюємо назад за допомогою зворотної функції , тобто . logуi=журналхiжурналх¯ГМ=досвід(у¯)

Гармонічне значення : Тут добавна структура знаходиться на зворотах наших спостережень. Отже, , звідки .ˉ x H M = 1 / ˉ yуi=1/хiх¯НМ=1/у¯

У фізичних проблемах вони часто виникають через такий процес: У нас є деяка кількість яка залишається фіксованою стосовно наших вимірювань та деяких інших величин, скажімо . Тепер ми граємо в таку гру: Тримайте і постійними і намагаємось знайти деякий таким, що якщо замінити кожне з наших окремих спостережень на , то співвідношення "загальний" все ще зберігається .x 1 , , x nшх1,,хн w z 1 + + z n ˉ x x i ˉ xz1,,zншz1++zнх¯хiх¯

Приклад "відстань - швидкість - час" видається популярним, тому скористаємося ним.

Постійна відстань, різний час

Розгляньте пройдену відстань . Тепер припустимо, що ми проїжджаємо цю відстань різних часів зі швидкістю , приймаючи рази . Зараз ми граємо в нашу гру. Припустимо, ми хотіли замінити наші індивідуальні швидкості на деяку фіксовану швидкість такою, щоб загальний час залишався постійним. Зауважимо, що у нас так що . Ми хочемо, щоб ця загальна залежність (загальний пробіг часу та загальна відстань) зберігалася, коли ми замінюємо кожну з на у нашій грі. Отже, n v 1 , , v n t 1 , , t n ˉ v d - v i t i = 0гнv1,,vнт1,,тнv¯t i = d / v i ˉ v = n

г-viтi=0,
v i ˉ v n d - ˉ v i t i = 0i(г-viтi)=0viv¯
нг-v¯iтi=0,
і оскільки кожен , ми отримуємо, що тi=г/vi
v¯=н1v1++1vн=v¯НМ.

Зауважимо, що "структура добавок" тут по відношенню до окремих часів, і наші вимірювання зворотно пов'язані з ними, отже, застосовується гармонічне середнє.

Різні відстані, постійний час

Тепер давайте змінимо ситуацію. Припустимо, що для екземплярів ми подорожуємо фіксований час зі швидкістю на відстані . Тепер ми хочемо, щоб загальна відстань була збережена. У нас і загальна система зберігається, якщо . Знову граючи в нашу гру, ми шукаємо такий, що але, оскільки , отримуємо, що t v 1 , , v n d 1 , , d n d i - v i t = 0нтv1,,vнг1,,гн

гi-viт=0,
i(гi-viт)=0v¯
i(гi-v¯т)=0,
гi=viт
v¯=1нivi=v¯АМ.

Тут структура добавки, яку ми намагаємося підтримувати, пропорційна вимірам, які ми маємо, тому застосовується середнє арифметичне.

Куб рівного об’єму

Припустимо, ми побудували розмірну коробку із заданим об'ємом і наші вимірювання - це бічні довжини коробки. Тоді і припустимо, ми хотіли побудувати розмірний (гіпер) куб з однаковим обсягом. Тобто ми хочемо замінити наші окремі довжини боків загальною довжиною сторони . Тоді нV

V=х1х2хн,
нхiх¯
V=х¯х¯х¯=х¯н.

Це легко вказує на те, що нам слід взяти .х¯=(хiхн)1/н=х¯ГМ

Зауважимо, що структура добавок є у логарифмах, тобто і ми намагаємося зберегти ліву кількість.журналV=iжурналхi

Нові засоби від старих

Як вправу, подумайте про те, що означає "природне" в ситуації, коли ви дозволяєте, щоб відстані та час змінювалися в першому прикладі. Тобто ми маємо відстані , швидкості та часи . Ми хочемо зберегти загальну відстань і пройдений час і знайти постійну для досягнення цього.v i t i ˉ vгiviтiv¯

Вправа : Що означає «природне» у цій ситуації?


25
+1 Це чудова відповідь. Однак я вважаю, що це важливо неповно: у багатьох випадках правильне значення для використання визначається питанням, на яке ми намагаємось відповісти, а не будь-якою математичною структурою в даних. Хороший приклад цього є при оцінці ризику для навколишнього середовища: регуляторні органи хочуть оцінити загальну кількість населення забруднюючих речовин з часом. Для цього потрібна відповідна середньозважена середня арифметика, навіть якщо дані про концентрацію навколишнього середовища зазвичай мають мультиплікативну структуру. Геометричне значення було б неправильним оцінником або оцінкою.
whuber

7
@whuber: (+1) Це чудовий коментар. На моєму шляху до створення відповіді я взяв рішуче нестатистичну вилку, тому радий, що ви це згадали. Це тема, гідна повної відповіді ( підказки ).
кардинал

9
@whuber: Це також свідчить про те, що (можливо, ненавмисно), що статистичний аналіз часто може бути підданий нагляду експертів домену (або, можливо, у вашому прикладі, навіть неекспертів), які хочуть оцінити щось важливе для свого домену, але майже цілком неприродно статистично. Проблема, з якою я стикався в минулому, полягає в тому, що вони іноді хочуть також диктувати спосіб проведення статистичної оцінки! :)
кардинал

1
@whuber: Було б дуже вдячно, якби ви могли також додати цю точку зору до відповіді, з деякою деталізацією. Чесно кажучи, ваші пояснення - одне з найкращих, що я бачив на Stats.SE!
Кандидат наук

3
Звичайний чудовий коментар від @whuber. Іноді (можливо, часто!) Правильного засобу використання немає ; скоріше, питання часто потрібно розширити на те, "який показник центральної тенденції я повинен використовувати?".
Пітер Флом

43

Розширення на відмінний коментар @Brandon (на який я думаю, що слід заохочувати відповісти):

Геометричне середнє слід використовувати, коли вас цікавлять мультиплікативні відмінності. Брендон зазначає, що геометричне середнє слід використовувати, коли діапазони різні. Зазвичай це правильно. Причина в тому, що ми хочемо зрівняти діапазони. Наприклад, припустимо, що абітурієнти оцінюються за балом SAT (0 до 800), середньою оцінкою балів у ВНЗ (від 0 до 4) та позакласними заходами (від 1 до 10). Якби коледж хотів оцінити їх і вирівняти діапазони (тобто збільшення ваги в кожній якості відносно діапазону), то геометричне середнє було б шляхом.

Але це не завжди так, коли ми маємо масштаби з різними діапазонами. Якби ми порівнювали доходи в різних країнах (включаючи бідні та багаті), ми, мабуть, не хотіли б середнього геометричного, а середнього арифметичного (або, що швидше, середнього чи, можливо, середнього рівня).

Єдине використання, яке я бачив для гармонійного середнього, - це порівняння показників. Як приклад: Якщо ви їдете з Нью-Йорка до Бостона зі швидкістю 40 МПГ, а повертаєтесь у 60 МПГ, то ваш загальний середній показник не середнє арифметичне 50 МПГ, а середнє гармонічне.

AM = HM =(40+60)/2=502/(1/40+1/60)=48

щоб перевірити, що це правильно для цього простого прикладу, уявіть, що це 120 миль від Нью-Йорка до Бостона. Тоді проїзд туди займає 3 години, їхати додому - 2 години, загальна - 5 годин, а відстань - 240 миль. 240/5=48


3
Чому ваш приклад SAT / GPA / позакласного навчання використовуватиме геометричне середнє, а не середньозважене або масштабоване середнє арифметичне? Чому SAT або GPA з нуля означають, що інші два значення стають неактуальними (як би означало геометричне середнє)? А що, якщо (скажімо, позакласні заняття) мають тенденцію до скупчення у набагато вужчій смузі, ніж його теоретичний діапазон? Здається, було б більше сенсу брати середнє арифметичне відсотків (або інших скоригованих значень), ніж середнє геометричне значення необроблених значень.
ruakh

1
@ruakh Цікаво. Питання 0 в цьому випадку насправді не має значення, оскільки SAT та GPA насправді не можуть бути 0 (SAT = 0 майже неможливо, а GPA 0 не закінчується). Я думаю, середнє арифметичне відсотків буде близьким до середнього геометричного у його висновках (навіть не в дійсних числах).
Пітер Флом

31

Я спробую звести його до 3-4 правил і навести ще кілька прикладів піфагорійських засобів.

Взаємозв'язок між трьома засобами є HM <GM <AM для негативних даних з деякою варіацією . Вони будуть рівними, якщо і лише тоді, коли взагалі немає варіацій у вибіркових даних.

Для даних у рівнях використовуйте AM. Ціни - хороший приклад. Для співвідношень використовуйте ГМ. Приклади інвестицій, відносні ціни, такі як індекс Bloomberg Billy (ціна книжкової полиці Ikea в різних країнах порівняно з ціною в США) та індекс людського розвитку ООН - це приклади. HM підходить при роботі зі ставками. Ось неавтомобільний приклад ввічливості Девіда Гілза :

Наприклад, врахуйте дані про "відпрацьовані години на тиждень" (ставка). Припустимо, у нас є чотири людини (вибіркові спостереження), кожен з яких працює в цілому 2000 годин. Однак вони працюють за різну кількість годин на тиждень таким чином:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

Середнє арифметичне значення в третьому стовпчику становить AM = 42,5 годин на тиждень. Однак зауважте, що означає це значення. Якщо поділити загальну кількість тижнів, відроблених вибірковою групою (8000), на це середнє значення виходить значення 188,2353 як загальна кількість тижнів, відпрацьованих усіма чотирма людьми.

Тепер подивіться останній стовпець у таблиці вище. Насправді правильне значення для загальної кількості тижнів, відпрацьованих членами вибірки, становить 191,5873 тижні. Якщо обчислити гармонійне середнє значення для годин на тиждень у третьому стовпчику таблиці, ми отримаємо HM = 41,75642 годин (<AM), а ділення цього числа на 8000 годин дає нам правильний результат 191,5873 на загальну кількість тижнів працювали. Ось випадок, коли гармонійне середнє значення забезпечує відповідний показник середньої вибірки.

Девід також обговорює зважену версію трьох засобів, які підходять до індексів цін, які використовуються для вимірювання інфляції.

Hijacky вбік:

Ці ROT не є ідеальними. Наприклад, мені часто важко зрозуміти, чи є щось ставка чи коефіцієнт. Повернення інвестицій, як правило, трактується як коефіцієнт при обчисленні засобів, але вони також є швидкістю, оскільки вони зазвичай позначаються у "х% за одиницю часу". Чи було б "використання HM, коли дані рівні за одиницю часу", більш евристичним?

Якби ви хотіли узагальнити індекс Big Mac для країн Північної Європи, чи використовували б ви GM?


3
На пару років пізніше, але ви коли-небудь знайшли відповідь на своє запитання щодо: "Якби ви хотіли узагальнити індекс Біг-Мака для країн Північної Європи, ви використали б GM?" ?
СтатистикаScared

2
@StatsScared Nope, але це може приємно запитати!
Мастеров Дмитро Васильович

7

Можлива відповідь на ваше запитання ("як я вирішую, яке значення є найбільш підходящим для використання в даному контексті?") - це визначення середнього значення, яке дав італійський математик Оскар Кісіні .

Ось документ з більш детальним поясненням та деякими прикладами (середня швидкість подорожі та інші).


6
Це може бути ідеально, якщо ви можете додати сюди кілька рядків про визначення Chisini, якщо посилання загине, та / або допомогти читачам дізнатися, чи хочуть вони натиснути посилання для подальшої ідеї.
gung

2
Дійсно, посилання на папір мертва. Посилання Wolfram не дає розуміння того, наскільки визначення Chisini є корисним для визначення того, що означає використовувати в заданому контексті; мені здається лише математичним узагальненням на відміну від рецепту використання.
Райан Сіммонс,

1
Використовуючи DOI, можна побачити, що папір перемістився на tandfonline.com. Citation: R Graziani, P Veronese (2009). Як обчислити середнє? Підхід Chisini та його застосування. Американський статистик 63 (1), с. 33-36. tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf

0

Думаю, простим способом відповісти на питання було б:

  1. Якщо математична структура дорівнює xy = k (обернена залежність між змінними), і ви шукаєте середнє значення, тоді вам потрібно використовувати середнє гармонічне значення - яке означає середньозважене середнє арифметичне - врахуйте

Гармонічне середнє = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

Наприклад: усереднення вартості долара підпадає під цю категорію, оскільки сума грошей, яку ви інвестуєте (A), залишається фіксованою, але ціна на акцію (P) та кількість акцій (N) змінюються (A = PN). Насправді, якщо ви вважаєте середнє арифметичне як число, рівне по центру серед двох чисел, гармонічне середнє значення - це також число, рівне по центру серед двох чисел, але (і це приємно) "центром" є те, де відсотки (відношення) рівний. Тобто: (x - a) / a = (b -x) / b, де x - середнє гармонійне.

  1. Якщо математична структура є прямою зміною y = kx, ви використовуєте середнє арифметичне - до чого зводиться середнє значення гармонік.

1
$x$х\frac{a}{b}аб

Скажімо, ви хочете зібрати середні ймовірності кількох різних моделей. У такому випадку чи має сенс використовувати геометричне або гармонічне середнє?
thecity2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.