Які існують альтернативи коробці?


20

Я працюю над створенням веб-сайту, який відображає дані перепису для вибраних користувачем полігонів і хотів би графічно показати розподіл різних параметрів (один графік на параметр).

Дані зазвичай мають такі властивості:

  1. Розмір вибірки, як правило, великий (скажімо, близько 10 000 точок даних)
  2. Діапазон значень, як правило, великий (наприклад, мінімальна кількість населення може бути менше 100, а максимальна може бути приблизно 500 000)
  3. q1 зазвичай близький до мінімального (скажімо, 200), тоді як q2 & q3 буде в межах 10 000
  4. Це не схоже на звичайний розподіл

Я не статистик, і тому мій опис може бути не зовсім зрозумілим.

Я хотів би показати цей розподіл на графіку, який побачать громадяни (мирянин, якщо хочете).

Мені б найкраще подобатися використовувати гістограму, але це неможливо через великий діапазон значень, завдяки якому виготовлення бункерів насправді не просте & прямо.

З того, що я мало знаю про статистику, графік поля - це те, що часто використовується для показу подібних даних, але я відчуваю, що для непрофесіоналів розшифрувати графік Box непросто.

Які мої варіанти відображення цих даних легко зрозуміти?


що саме ви показуєте? Для мене незрозуміло, які саме дані представляє ваша одна точка даних.
mpiktas

1
Як щодо графіку щільності ядра? statmethods.net/graphs/density.html
Роман Луштрик

@mpiktas: Мої дані - це дані перепису для сіл. Мій веб-сайт дозволить користувачеві вибрати область на карті, а потім знайде всі села в цьому районі. Дані перепису для села складаються з різних значень, таких як: Чоловіче населення, жіноче населення, середній дохід домогосподарств тощо для цього села. Я сподіваюся показати розподіл даних для певного значення (наприклад: Загальне населення) для всіх сіл, що потрапляють у вибрану користувачем область.
Devdatta Tengshe

Відповіді:


13

Боксер не такий складний. Зрештою, потрібно просто обчислити три квартілі , а min та max, які визначають діапазон; тонкість виникає, коли ми хочемо намалювати вуса і запропоновані різні методи. Наприклад, у шкалі "Туккі" значення, що перевищує 1,5 рази, міжквартиль з першого або третього кварталу вважатиметься вигідним і відображатиметься як прості точки. Дивіться також Методи представлення статистичної інформації: Набір графіків для хорошого огляду , Крістін Поттер. Програмне забезпечення R реалізує дещо інше правило, але вихідний код доступний, якщо ви хочете його вивчити (див. boxplot()Таboxplot.stats()функції). Однак це не дуже корисно, коли інтерес полягає у виявленні людей, що перебувають із дуже перекошеного розподілу (але дивіться, "Налагоджена коробка для косого розподілу" , Hubert and Vandervieren, CSDA 2008 52 (12)).

Що стосується візуалізації в Інтернеті, я б запропонував поглянути на Protovis, який є плагін-js інструментарієм для інтерактивних веб-дисплеїв. Сторінка прикладів містить дуже багато ілюстрацій того, що можна досягти за допомогою неї, в дуже мало рядків.


3
Я працюю в біологічних дослідженнях. Я знаю деяких колег (я маю на увазі людей з доктором наук), які насправді не можуть зрозуміти коробки. Я б не використовував їх для орієнтації на загальну аудиторію.
nico

1
@nico Це справедливий момент. Але це не є причиною не використовувати ефективний графічний підсумок. Принципова ілюстрація того, що насправді робить боксер, може допомогти читачеві.
chl

1
це дійсно залежить від того, яка цільова аудиторія та яка мета сайту. Пояснення боксерів, безумовно, допоможе, але все-таки деякі люди багато борються з концепцією розподілу.
nico

@nico Так, я згоден. Хоча про боксплот не згадується в "Екскурсії по зоопарку візуалізації" - але це для великих і складних наборів даних, мені це просто подобається, і мені шкода, що він не так сильно використовується в експериментальних науках. Накладення необроблених даних - це спосіб допомогти читачеві візуалізувати розподіл.
chl

1
Я знаю! Я завжди намагаюся "перетворити" своїх колег на коробки, принаймні, якщо мова йде про написання паперів, створення презентацій тощо, але іноді це буває!
nico


7

Я б запропонував вам наполегливо виконувати гістограми. Вони набагато ширше зрозуміли, ніж альтернативи. Використовуйте шкалу журналу, щоб впоратися з великим діапазоном значень. Ось приклад, який я підготував за пару хвилин у штаті: Гістограма зі шкалою журналу на осі значення
я визнаю, що числові мітки осі x не були повністю простими або автоматичними, але, як ви будуєте веб-сайт, я впевнений, що ваші навички програмування дорівнюють виклик!


Гарна думка. Гістограми (або графіки щільності з експериментом із пропускною здатністю) є чудовим рішенням тут.
suncoolsu

Ви абсолютно праві, що гістограма - це найбільш зрозумілий спосіб відображення розподілу. Я спробую зробити гістограми з обома осями в журнальному масштабі.
Devdatta Tengshe

2
Я лише пропоную використовувати шкалу журналу для осі x. Я не думаю, що масштаб журналу для осі частоти був би хорошою ідеєю, оскільки тоді затінена площа кожної смуги гістограми не була б пропорційною кількості спостережень.
onestop

5

Ось функція matlab для побудови декількох гістограм поруч у 2D як альтернатива коробці-графіку. Дивіться малюнок вгорі. А ось ще одна

Смуга щільності є ще однією альтернативою коробці. Це затінена монохромна смуга, темрява якої в точці пропорційна щільності ймовірності величини в цій точці. Це R-реалізація смуги щільності


1
(+1) Забув про це. Це може бути зручно.
chl

1
Щойно знайшла незапечатану версію PDF відображення невизначеності із затіненням .
chl

@chl: це посилання не працює
kjetil b halvorsen

4

х%х=0,10,20,...,100


3
Цитуючи мого друга: якщо ви хочете щось "сховати" в папері, вкладайте це в текст, а не в цифру. Якщо ви хочете переконатися, що ніхто ніколи не читає, покладіть його в таблицю! ;) Звичайно, жартую, але маючи веб-сайт з інтерактивними картами, щоб користувачі могли натиснути і т. Д. Все це, щоб отримати таблицю ... ну, це було б невтішно!
nico

@nico, так, але іноді таблиці набагато інформативніші, ніж графіки. Я, наприклад, віддаю перевагу таблиці замість поганого графіка. У цьому випадку таблицю все ще можна представити графіком, і я запропонував кванти, тому що у них немає проблем з випускниками.
mpiktas

Це я зараз роблю (показую децили на графіку), але після того, як показав це деякій нашій цільовій аудиторії, ми отримали зворотній зв’язок, що графіки було не просто зрозуміти.
Devdatta Tengshe

2

Якщо ви орієнтовані на загальну сукупність (тобто аудиторію, яка не піддається статистиці), вам слід зосередитись на привабливості, а не на статистичній точності.

Забудьте про коробки, не кажучи вже про сюжетні скрипки (особисто мені їх дуже важко читати)! Якщо ви запитаєте середньостатистичного чоловіка на вулиці, що таке квантил, ви б здебільшого почули тишу широкооким ...

Слід використовувати барплоти, бульбашкові діаграми, можливо, деякі кругові діаграми (brrrr). Забудьте про смужки помилок (хоча я поставив би текст SD в тексті кудись, де це можливо).

Використовуйте кольори, форми, товсті лінії, 3D. Ви повинні зробити кожну діаграму унікальною і одразу зрозумілою, навіть не читаючи всі легенди / осі тощо. Розумно використовуйте карти, фарбуючи їх.

Інформація прекрасна - це дуже хороший ресурс для отримання ідей. Наприклад, погляньте на цю діаграму: Кофеїн і Калорії : кожен може зрозуміти це, і це радує око.

І, звичайно, погляньте на роботу Едварда Туфте.


Зауважте, я не пропонував використовувати для скриптів сюжети для скрипки, а гістограму з логарифмічно розташованими бункерами. Сюжетні скрипки - це відповідь на запитання в заголовку (що було зовсім іншим питанням у самій публікації).
Дікран Марсупіал

3
Вам, напевно, сподобаються Many Eyes , dataviz , datavisualization.ch та Ideas2evidence .
chl

2

Я більше люблю сюжетні скрипкові сюжети , оскільки це дає уявлення про форму розподілу. Однак якщо проблема великого діапазону значень, то, можливо, було б найкраще побудувати журнал даних, а не необроблені значення, який би потім зробив вибір розмірів поля для гістограм тощо. Оскільки дисплей призначений для мирян, не не згадайте журнали та позначте вісь 10, 100, 1000, 10000, 100000, 1000000 тощо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.