Що можна зробити висновок про дані, коли середнє арифметичне дуже близьке до середнього геометричного?


24

Чи є щось значне щодо середнього геометричного та середнього арифметичного, що падають дуже близько один до одного, скажімо, ~ 0,1%? Які підказки можна зробити щодо такого набору даних?

Я працював над аналізом набору даних, і зауважую, що за іронією долі значення дуже і дуже близькі. Не точно, але близько. Крім того, швидка перевірка правильності середньоарифметичної середньогеометричної нерівності, а також огляд збору даних виявляють, що в цілісності мого набору даних немає нічого кривдного з точки зору того, як я придумав значення.


6
Невелика примітка: спочатку перевірте, чи всі ваші дані є позитивними; парне число негативних значень може залишити вас позитивним продуктом, і деякі пакети можуть не позначити потенційну проблему (нерівність AM-GM покладається на те, що значення є усі позитивними). Див. Наприклад (в R):x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (тоді як середнє арифметичне значення 1)
Glen_b -Встановити Моніку

1
Для уточнення точки @ Glen_b набір даних {x,0,x} завжди має середнє арифметичне та геометричне середнє значення, а саме нуль. Однак ми можемо поширити три значення настільки далеко, наскільки хочемо.
хардмат

І арифметичні, і геометричні засоби мають однакову узагальнену формулу , при цьому дає першому, а p 0 - другому. Потім стає інтуїтивно зрозумілим, що вони стають все ближче і ближче один до одного, коли значення даних x все більше і більше всі рівні, наближаючись до постійної. p=1p0x
ttnphns

Відповіді:


29

Середнє арифметичне пов'язане з геометричним середнім через нерівність середнього арифметичного-середнього геометричного (AMGM), яка говорить про те, що:

x1+x2++xnnx1x2xnn,

де досягається рівність iff . Тому, ймовірно, всі ваші точки даних дуже близькі один до одного.x1=x2==xn


4
Це правильно. Як правило, чим менша дисперсія значень, тим ближче два кошти.
Майкл М

16
Відхилення мали б бути невеликими ЗА ПОРІВНЕННЯМ із розмірами спостережень. Таким чином, коефіцієнт варіації повинен бути малим.σ/μ
Майкл Харді

1
Чи означає AMGM щось? Якщо так, то непогано було б прописати це.
Річард Харді

@RichardHardy: AMGM означає «середнє арифметичне - середнє геометричне»

1
@ user1108, дякую, власне, я отримав це після прочитання інших публікацій. Я просто думаю, що це могло бути прописано у відповіді (не лише в коментарях).
Річард Харді

15

Розвиваючи відповідь @Alex R, один із способів побачити нерівність AMGM - це ефект нерівності Дженсена. За нерівністю Дженсена : Тоді візьмемо експоненцію обох сторін: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Права частина представляє собою середнє геометричне , так як (x1x2xn)1/n=exp(1nilogxi)

Коли нерівність AMGM дорівнює майже рівності? Коли ефект нерівності Дженсена невеликий. Тут впливає ефект нерівності Дженсена - це увігнутість, викривлення логарифму. Якщо ваші дані поширюються на область, де логарифм має кривизну, ефект буде великим. Якщо ваші дані поширюються в регіоні, де логарифм є в основному афінним, ефект буде невеликим.

Наприклад, якщо дані мають незначні зміни, збиті разом у досить невеликому сусідстві, то логарифм буде схожий на афінну функцію в цьому регіоні (тема обчислення полягає в тому, що якщо ви збільшуєте масштаб плавної, безперервної функції, це буде виглядати як лінія). Якщо дані є досить близькими між собою, середнє арифметичне даних буде близьким до середнього геометричного.


12

Давайте дослідимо діапазон враховуючи, що їх середнє арифметичне (AM) є невеликим кратним 1 + δ їх геометричного середнього (GM) (при δ 0 ). У питанні δ 0,001, але нам невідомо nx1x2xn1+δδ0δ0.001n .

Since the ratio of these means does not change when the units of measurement are changed, pick a unit for which the GM is 1. Thus, we seek to maximize xn subject to the constraint that x1+x2++xn=n(1+δ) and x1x2xn=1.

x1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

і

1=x1x2xn=xn1z.

The solution x is a root between 0 and 1 of

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

As soon as n reaches any appreciable size, even a tiny ratio of 1.001 is consistent with one large outlying xn (the upper red curves) and a group of tightly clustered xi (the lower blue curves).

At the other extreme, suppose n=2k is even (for simplicity). The minimum range is achieved when half the xi equal one value x1 and the other half equal another value z1. Now the solution (which is easily checked) is

xk=1+δ±δ2+2δ.

For tiny δ, we may ignore the δ2 as an approximation and also approximate the kth root to first order, giving

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.