Чи доцільно побудувати середнє значення в гістограмі?


13

Чи "добре" додати вертикальну лінію до гістограми для візуалізації середнього значення?

Мені це здається нормальним, але я ніколи не бачив цього в підручниках і подібних, тому мені цікаво, чи існує якась умова, щоб цього не робити?

Графік призначений для курсової роботи, я просто хочу переконатися, що я випадково не порушую якесь надзвичайно важливе правило про невисловлену статистику. :)


Чому ні. Просто щоб додати коментар. Середнє значення - це підсумкове значення, як і гістограма. Ви можете змінювати ступінь наданої інформації, змінюючи, наприклад, розмір відра гістограми. Однак зазвичай гістограма надає більше інформації, ніж просто середню. Ви можете фактично наблизити середнє значення з гістограми. Я думаю, що тому вони зазвичай не забезпечуються разом.
Симона

Іноді можна побачити гістограми з накладеним розподілом (наприклад, найчастіше, на мій досвід, звичайний розподіл, побудований за допомогою середнього зразка та стандартного відхилення.) Це робить те саме (і трохи більше), як малювання вертикальної лінії (вказуючи, де зразок середнє значення має пік кривої.)
Джеймс Стенлі

Відповіді:


30

Звичайно, чому б і ні?

гістограма із середнім значенням

Ось приклад (один з десятків я знайшов за допомогою простого пошуку в Google):

hist із середнім та середнім

(Джерело зображення - це блог зручності використання тут .)

Я бачив засоби, засоби плюс або мінус стандартного відхилення, різні кванти (як медіана, квартілі, 10-й та 90-й процентилі), які відображаються різними способами.

Замість того, щоб малювати лінію прямо через сюжет, ви можете позначити інформацію внизу від неї - так:

гістограма з крайовим боксплотом

Там приклад (один з багатьох можна знайти) з boxplot через вершину , а не на дні, тут .

Іноді люди відзначають у даних:

гістограмовий килим з тремтінням
(Я дещо перемкнув місця розташування даних, оскільки значення були округлені до цілих чисел, і ви не могли добре побачити відносну щільність.)

Там приклад такого роду, зроблено в Stata, на цій сторінці (див третьої тут )

Гістограми краще з невеликою кількістю додаткової інформації - вони можуть вводити в оману самостійно

Вам просто потрібно подбати, щоб пояснити, з чого складається ваш сюжет! (Ви б хотіли для початку кращий заголовок та мітку осі x, ніж я використовував тут. Плюс пояснення у підписі на рисунку, що пояснює, що ви позначили на ньому.)

-

Останній сюжет:

гістограма зі стрип-схемою

-

Мої сюжети генеруються в Р.

Редагувати:

Як @gung припускав, abline(v=mean...його використовували для малювання середньої лінії по графіку і rugвикористовували для малювання значень даних (хоча я насправді використовував, rug(jitter(...оскільки дані були округлені до цілих чисел).

Ось спосіб зробити боксерт між гістограмою та віссю:

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

Я не збираюся перераховувати, для чого все є, але ви можете перевірити аргументи у довідці ( ?boxplot), щоб дізнатися, для чого вони потрібні , і пограти з ними самостійно.

Однак це не загальне рішення - я не гарантую, що він завжди буде працювати так добре, як це робиться тут (зауважте, я вже змінив atі boxwexпараметри *). Якщо ви не пишете інтелектуальної функції, щоб піклуватися про все, необхідно звернути увагу на те, що все робить, щоб переконатися, що це робить те, що ви хочете.

Ось як створити дані, які я використовував (я намагався показати, як регресія Теїла справді здатна впоратися з кількома впливовими людьми). Просто трапилось це дані, з якими я грав, коли вперше відповів на це питання.

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

* - відповідне значення для atприблизно -0,5 разів перевищує значення boxwex; це було б добре за замовчуванням, якщо ви пишете функцію для цього; boxwexпотрібно було б масштабувати таким чином, що відповідає y-шкалі (висоті) боксплотта; Я б припустив, що від 0,04 до 0,05 рази верхня межа y може часто бути в порядку.

Код граничної смугастої діаграми:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1, це приємно; хочете додати код? abline(v=mean(Davis2[,2]))І rug(Davis2[,2])я б здогадався, але як ти вкріпив туди коробку?
gung - Відновіть Моніку

1
@gung Перегляньте редагування, щоб ознайомитись з короткими деталями, включаючи відтворюваний приклад, подібний до того, що використовується у Boxplot. Це насправді не робить нічого розумнішого, ніж використовувати декілька аргументів boxplotфункції. Між собою boxplotі boxpви можете робити деякі досить витончені речі з невеликим зусиллям.
Glen_b -Встановіть Моніку

Мудрість для віків: "Якщо ви не пишете розумну функцію, щоб піклуватися про все, потрібно звернути увагу на те, що все робить, щоб переконатися, що це робить те, що ви хочете" ;-).
gung - Відновити Моніку

Так. Я навіть думав написати щось розумне, щоб встановити atі boxwexтак далі ... але в кращому випадку я роблю лише кілька сюжетів на зразок цього року, і щоразу потрібно набрати кілька секунд, щоб набрати? Boxplot та встановити правильні параметри. Я подумав, що простіше просто звернути увагу на те, що я роблю.
Glen_b -Встановіть Моніку

@gung Я редагував, щоб надати код, щоб створити дані Davis2, якими я користувався. Сподіваюся, що це допомагає.
Glen_b -Встановити Моніку

3

Звичайно, ви можете. Просто не забудьте чітко позначити / вказати, що означає лінія, і уникайте робити сюжет занадто "зайнятим".

Нічого не гірше, ніж графік, який передає занадто багато інформації, щоб бути легко зрозумілим. Таблиця - це часто не помічений спосіб відображення підсумкової статистики у чіткому, стислому питанні.


2

Попередні відповіді дають чудові моменти, але тут слід додати ще один фундаментальний характер.

Середнє значення - центр ваги розподілу, а тому точка зсуву гістограми. Саме там розподіл балансуватиме. Отже, існує взаємне відношення: не тільки середнє може допомогти вам думати про гістограму, так і гістограма може допомогти вам думати про середину. Це навіть може бути корисніше, коли розподіл перекошений, а середнє значення розподілу не обов'язково знаходиться посередині.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.