Яку інформацію надає графік, що не містить гістограми?


13

Гістограми дають гарне відчуття розподілу змінної. Структури поля намагаються зробити те ж саме, але не дають гарної картини розподілу цієї змінної.

Я не розумію, чому люди використовують сюжетні коробки. Гістограми краще всіляко. Чи є причина, щоб я використовував їх обох?

Єдине, що я думаю, що надають сюжетні коробки, це: люди, що переживають! Це говорить нам, які спостереження можуть бути пережилими.


1
Чи є гістограма гіршою всіляко, ніж представлення всього розподілу?
Ентоні Мартін

2
Залежить від того, що ви хочете, з графіком поля ви можете мати точні значення (наприклад, медіану, P75), яких у вас немає з гістограмою. Він відображає менше інформації, але є більш синтетичним. Моя думка, що навіть гістограма є спрощенням і марною тратою інформації порівняно з усім розповсюдженням. Але це може бути простіше у використанні
Ентоні Мартін

2
Протилежну точку зору щодо корисності гістограм чітко висловлено та добре проілюстровано у висококваліфікованій публікації за адресою stats.stackexchange.com/a/51753 (яку можна знайти, шукаючи на нашому сайті "гістограму").
whuber

3
Цікава думка - але збільшення розміру бункера зменшило би гістограму до фігури, що нагадує коробку, зберігаючи при цьому свою нещасну залежність від вибору точок вирізу. ІМХО, справжні достоїнства боксерів можна найкраще оцінити, вивчивши, як Тукі використовував підсумок N-літер для дослідницького аналізу багатофакторних даних і пам’ятаючи, що він підраховував олівець та папір у той час. Для візуалізацій на кшталт "мандрівного схематичного сліду" інші універсальні зведення умовних відповідей, як гістограми чи скрипкові сюжети, просто не працювали б.
whuber

1
Два відмови (imo) гістограми трапляються, коли проб мало, або коли коробочки мають неправильні розміри. Слабкість хорошого бокс-колу (і я думаю, що мінливість JMP, коли я це кажу) - мультимодальність і тонка деталізація. Одне місце, де світить боксер, - це мало зразків. Мені також подобається, коли існує ряд взаємодіючих змінних на різних рівнях - таким чином, графік змінності JMP.
EngrStudent

Відповіді:


16

Те, що графічні коробки надають більше підсумків розподілу, також може розглядатися як перевага в певних випадках. Іноді, коли ми порівнюємо дистрибуції, ми не дбаємо про загальну форму, а швидше, де розподіли лежать один щодо одного. Складання квантилів поруч може бути корисним способом цього, не відволікаючи нас на інші деталі, які можуть нас не хвилювати.


1
Це найкраща відповідь. Boxplots краще для порівняння розподілів, ніж гістограми!
kjetil b halvorsen

14

У універсальному випадку графіки графіків надають певну інформацію, якої гістограма не містить (принаймні, не явно). Тобто, він зазвичай забезпечує медіану, 25-й та 75-й перцентиль, хв / макс, що не є стороннім, і чітко розмежовує точки, які вважаються позаставниками. Це все може бути «зашкльоване» з гістограми (а може бути краще, щоб це було зроблено на очах у випадку, коли вони випадають).

Однак набагато більша перевага полягає в порівнянні розподілів за багатьма різними групами одночасно. Для груп 10+ це важке завдання з гістограмами, але дуже легко з графіками коробки.

Як ви вже згадували, сюжетні скрипки (або бобові сюжети) є дещо більш інформативними альтернативами. Однак для них потрібні трохи більше статистичних знань, ніж графіки графіків (тобто, якщо вони представлені нестатистичній аудиторії, це може бути трохи більш залякуючим), і графіки вікон значно довші, ніж оцінювачі щільності ядра, отже, більша їх популярність.


3
+1. Однак виправлення графіків подають медіани, а не засоби.
Грінпаркер

3
Кожен може мати рацію. На графічних полях, як зазвичай, подано медіанів (я бачив це запереченим, але не пам'ятаю, щоб бачити приклад) Але деякі реалізації дозволяють показувати і засоби. Це часто гарна ідея.
Нік Кокс

Дякуємо, що вказали на це. Я продовжую (неправильно) думати, що це звичайно середнє значення, яке може призвести до дуже дивних сюжетів в крайніх випадках.
Кліф АВ

1
Було б добре, якби разом із цим були зображення, щоб показати значення побічних порівнянь із графіками коробки та гістограмами
Рудольф Олах

7
  1. Якщо я покажу вам гістограму і запитаю вас, де медіана, ви, можливо, будете досить довго розгадувати її ... і тоді ви отримаєте лише наближення до неї. Якщо я те ж саме роблю з боксертом, у вас це є негайно; якщо це те, що вас цікавить, boxplots очевидно виграють.

  2. Я погоджуюся, що боксерські машини не настільки ефективні, як опис розподілу одного зразка, оскільки вони зводять його до кількох моментів, і це не дуже розкаже вам.

    Однак, якщо ви порівнюєте багато десятків дистрибутивів, то, маючи всі деталі кожного, можливо, буде більше інформації, ніж легко порівняти - ви, можливо, захочете зменшити інформацію до меншої кількості речей для порівняння.

  3. Якщо більше інформації краще, то є багато кращих варіантів, ніж гістограма; наприклад, стовбуровий та листовий сюжет, або графік ecdf / quantile.

    Або ви можете додати інформацію до гістограми:

гістограма з крайовим боксплотом гістограмовий килим з тремтінням гістограма зі стрип-схемою

(сюжети з цієї відповіді )

Перший із них - додавання вузької рамки до поля - дає будь-які переваги, отримані від будь-якого дисплея.


1

Штрихові діаграми забезпечують лише діапазон частоти спостережень, тоді як графічні графіки краще пояснюють, де лежить декілька параметрів розподілу, середнє приклад та відхилення, які не можуть мати смуги. Таким чином, графічні коробки використовуються як ефективний порівняльний інструмент, якщо у них є кілька розподілів.


Рідко зустрічається боксплот, коли він показує середнє значення - майже завжди вони використовують медіани - і вони ніколи не представляють відхилення безпосередньо. Також зауважте, що ці величини зазвичай не вважаються "параметрами розподілу": вони є описовою статистикою для групи даних .
whuber

Саме вони є хорошим інструментом для опису розподілу, не надто багато обчислень. І вони більше показують медіанів, і оскільки у багатьох випадках обидва заходи збігаються, графічні коробки є хорошим інструментом для наближення середнього значення.
Shiv_90

Здається, ваш коментар продовжує плутати дані з базовим розподілом . Дуже рідко середнє значення дорівнює медіані в будь-якій партії даних. Більше того, одне з кращих і найпоширеніших застосувань боксплотта - виявлення асиметрії, що, як правило, передбачає важливу різницю між середнім та середнім. Одним із основних принципів, що стоїть за початковою концепцією боксплотта, є те, що він є надійним інструментом розвідки - що означає, що краще не базуватися на чутливих статистичних даних, таких як середнє значення або дисперсія.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.