Як найкраще візуалізувати відмінності у багатьох пропорціях у трьох групах?


18

Я намагаюсь візуально порівняти, як три різні публікації новин висвітлюють різні теми (визначені за темою моделі LDA). У мене є два пов'язані з цим методи, але я отримав багато відгуків від колег, що це не дуже інтуїтивно. Я сподіваюся, що хтось там має кращу ідею для візуалізації цього.

У першому графіку я показую пропорції кожної теми у кожній публікації, наприклад:

Пропорції на всі теми та публікації

Це досить просто та інтуїтивно зрозуміло майже для всіх, з ким я спілкувався. Однак складно помітити відмінності між публікаціями. Яка газета висвітлює, яку тему більше?

Щоб досягти цього, я зрозумів різницю між публікацією з найвищою та другою найвищою часткою тем, забарвлених публікацією з найвищою. Подобається це:

Різниця між першою та другою найвищими темами

Так, величезна планка для футболу, наприклад, насправді - відстань між англійською мовою Al-Ahram та Daily News Egypt (№2 у футбольному висвітленні), і вона пофарбована у червоний колір, оскільки Аль-Ахрам - №1. Аналогічно, випробування зелені, оскільки Єгипетський незалежний має найвищу частку, а розмір смуги - відстань між Єгипетським незалежним та Daily News Egypt (знову №2).

Те, що я мушу пояснити, що все в двох абзацах є досить впевненою ознакою того, що графік не відповідає тесту на самодостатність. Важко сказати, що відбувається насправді, просто подивившись на це.

Будь-які загальні пропозиції щодо того, як візуально виділити домінуючу публікацію до кожної теми більш інтуїтивно зрозумілим способом?

Редагувати: Дані, з якими можна грати: Ось dputвихід з R , а також файл CSV .

Редагувати 2: Ось попередня версія сюжетної крапки з діаметрами точок пропорційною пропорції теми в корпусі (саме так спочатку сортували теми). Хоча мені все-таки потрібно поправити це трохи більше, він відчуває себе набагато інтуїтивніше, ніж те, що я робив раніше. Дякую всім!

Точковий сюжет


1
Я щойно додав деякі дані (для R та CSV). Я ще не закінчив вибирати гарні кольори (звідси червоно-зелений Різдво Христовий), хоча знаю, що стосується кольорових штор :)
Ендрю

1
Згадка про "пропорції" тут трохи червона оселедець, оскільки дані насправді не є пропорціями і, що важливіше, жодне з графічних рішень поки що не залежить від того, дані є пропорціями. Це добре, оскільки рішення мають відношення до широкого спектру даних, але їх не вводять в оману.
Нік Кокс

(+1) Приємне запитання, включаючи завантажений набір даних та швидке спостереження!
chl

Ендрю, що стосується вашої останньої редакції, я думаю, що було б краще з вертикальними лініями сітки. Вони створюють шаблон шашки, але не додають великої вартості, припускаючи, що вам не байдуже читати точні значення з графіка.
xan

Без вертикальних ліній?
Андрій

Відповіді:


18

Дякуємо, що зробили дані доступними та за цікавий набір даних та графічний виклик.

Моя головна пропозиція - точковий графік (Клівленд).

введіть тут опис зображення

Найважливіші деталі, які я хотів би підкреслити:

  1. Накладення тут дозволяє і полегшує порівняння.

  2. Порядок тем у ваших відображеннях видається досить довільним. Відсутній природний порядок (наприклад, час, простір, упорядкована змінна) Я завжди б сортував одну із змінних, щоб забезпечити рамку. Що використовувати, може бути питанням того, чи є одне особливо цікаве чи важливе, рішення дослідника. Інша можливість полягає в тому, щоб замовити певну міру відмінностей між документами, щоб теми, які отримували аналогічне висвітлення, були з одного кінця, а теми, які отримували різний висвітлення, на іншому.

  3. Відкриті маркери або точкові символи дозволяють вирішити накладення чи тотожність краще, ніж закриті або тверді маркери чи символи, які в гірших випадках затьмарюють або окулюють один одного. (Альтернативою, яка тут може працювати досить добре, є такі листи, як A, D і I для трьох газет.)

Ясно багато можливостей для вдосконалення мого дизайну. Наприклад, чи надписи занадто великі та / або занадто важкі? З іншого боку, заголовки повинні бути легко читабельні, інакше графік - це збій.

Деякі менші, прискіпливіші моменти:

а. Червоний і зелений на вашому графіку - це поєднання кольорів, яких слід уникати. Якщо використовуються різні маркери, вибір кольорів є менш важливим.

б. Горизонтальні галочки на графіку відволікають. Навпаки, лінії сітки на моїх потрібні, але я намагаюся зробити їх ненав'язливими, використовуючи тонкі, легкі лінії.

× 0,1% або 2%, тож 98% паперів - це щось інше? Я використовував пропорції безпосередньо у наданому форматі .csv.

Клівлендські точкові діаграми завдячують найбільше

Клівленд, WS 1984. Графічні методи представлення даних: повнорозмірні розриви, точкові діаграми та багатобазовий журнал. Американський статистик 38: 270-80.

Клівленд, WS 1985. Елементи графічних даних. Монтерей, Каліфорнія: Уедсворт.

Клівленд, WS 1994. Елементи графічних даних. Саміт, Нью-Джерсі: Хобарт Прес.

Один попередник (більш відомий статистично для зовсім іншої роботи !!!) був

Пірсон, Е. С. 1956. Деякі аспекти геометрії статистики: використання наочного викладу в розумінні теорії та застосуванні математичної статистики. Журнал Королівського статистичного товариства A 119: 125-146.

Для тих, хто цікавиться, графік був підготовлений у Stata після читання у форматі .csv з кодом

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 

Це дивовижно - дякую! На жаль, відсотки, на жаль, не складаються ні до чого, оскільки значення є стандартизованими засобами з великого корпусу документів (тобто кожен документ у кожній публікації складається з певної комбінації з 20 тем, виявлених LDA - це показує нормовані засоби… отже невеликі числа)
Андрій

Також теми впорядковані за їх пропорцією в корпусі. Управління в Єгипті - це найбільш часто зустрічається тема, а інша - найрідкісніша тема. Але використання цього порядку тут робить точки / символи трохи складніше візуально слідувати.
Андрій

Це чудово! Спасибі! Я оновив оригінальний пост, щоб відобразити ваші пропозиції та додати пропорції корпусу.
Андрій

(+6) Приємна відповідь! І завжди приємно мати посилання та відтворюваний код.
chl

@chl Дякую за вдячні коментарі та додаткову репутацію.
Нік Кокс

14

Точковий сюжет від Ніка Кокса, мабуть, найкращий для повної картини. Якщо ви дійсно хочете підкреслити відношення першого проти другого, ось модифікація вашої діаграми, яка компенсує смугу різниці на довжину другої смуги.

введіть тут опис зображення

А для іншого перегляду великої картини ви можете спробувати щось на зразок нахильної діаграми або паралельної ділянки координат. Рядки тут можуть бути занадто переповненими, але це може спрацювати, якщо ви хочете виділити підмножину тем.

введіть тут опис зображення

Крім того, ви можете спробувати helpmeviz.com, який орієнтований на дуже конкретні дані, зокрема такі питання.


Цікаво! Хвилинна точка: назва осі або мітка "пропорція" не відповідають одиницям%.
Нік Кокс

О, це справді цікаво. Я зіграю з цим, щоб побачити, чи може він доповнити точкову діаграму.
Андрій

2

Першим моїм інстинктом було запропонувати мозаїчний сюжет ; він графікує кожну підкатегорію як прямокутник, де один вимір являє собою загальний підрахунок для основної категорії, а інший вимір представляє пропорційну частку підкатегорії. Існує пакет R, щоб намалювати їх , але це також досить просто, як це робити з інструментами для графічного зображення нижнього рівня.

Однак мозаїчні сюжети (на зразок відсоткових штангових графіків) найкраще працюють, якщо у вимірі є лише 2 або 3 категорії, в яких потрібно порівняти пропорції. Тож вони будуть добре працювати, якби ви хотіли порівняти відмінності між темами у пропорції статей, що були у кожній із трьох газет , але не стільки за вашим призначенням, порівнявши різниці між трьома газетами у пропорції висвітлення для кожної теми . Тонка, але важлива відмінність!

Для того, що ви хочете підкреслити, я вважаю, що найефективніший графік є одним із найпростіших - згрупованою гістограмою. Більше людей розуміють гістограми, ніж точкові; з першого погляду ви бачите, що ви порівнюєте величини різної величини, а значення, які ви хочете порівняти, розташовані поруч.

Однак якщо ви дійсно хотіли б підкреслити відмінності пропорційно, ви можете створити спеціальну згруповану гістограму, модифіковану для розміщення кожної групи так, щоб середнє значення для категорії було вирівняне з віссю замість нульових значень:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Зауважте, що смуги в кожній групі все ще вирівнюються для зручного порівняння розмірів і що основна лінія кожної групи тепер розташована зліва від осі відповідно до медіанного значення цієї групи, тоді як смуги, які виступають праворуч від осі, є рівнозначними до другої гістограми, що показує різницю між першими двома категоріями.

Незалежно від того, використовуєте ви стандартну згруповану гістограму чи графік з коригуванням зміщення, як описано вище, ви все одно можете взяти ідею з мозаїчних сюжетів і зробити ширину кожного рядка пропорційною загальному підрахунку статей для цієї газети (тому розмір смужка пропорційна кількості статей у цій газеті в цій категорії).

Оскільки ваша тестова статистика є властивістю кожного порівняння , а не окремих значень, я не думаю, що корисно масштабувати кожну точку даних відповідно до значущості. Натомість я мав би піктограму поруч із кожною групою, яка представляла значення. Для академічного видання стандарт */ **/ ***має перевагу знайомства, але ви можете проявити творчість, якби хотіли показати повний континуум статистики.


Основна ідея тут - згрупувати бруски вертикально. Це широко використовується конструкція, але передбачає 60 барів вертикально, а не 20 в оригіналі афіші. Хоча ви можете чітко налаштувати ширину смуги, я думаю, вам знадобиться більше місця, щоб зробити це добре в цьому випадку, тим більше що ви хочете додати простір між групами.
Нік Кокс

@NickCox Це зворотний бік порівняно з більш компактною оригінальною діаграмою, хоча ви можете повернути весь графік на 90 градусів, якби орієнтована на пейзаж фігура відповідала вашому загальному плану.
AmeliaBR

Можна, але 60 барів - і зліва направо, і 20 ярликів, таких як "Братство мусульман та політика", повинні були читатись ...
Нік Кокс

Можливо, ви зможете змусити його працювати, встановивши бруски в групі один на одного, а не поруч. Важко сказати, не бачачи макету (а моє мистецтво ASCII не дуже добре передає зовнішній вигляд). Це було б менш інтуїтивно, оскільки це не настільки звична структура, і це може призвести до плутанини, якщо два бруски майже на однаковій висоті. Але якщо альтернативою є бари з широким
розміром

Отже, ви наближаєтесь до пропозиції в моїй відповіді точкової діаграми.
Нік Кокс

1

Ви пробували бульбашкову діаграму? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Окремі теми можуть бути кружечками, і кожне коло може бути круговою діаграмою відсотка, який охоплює кожна тема новин. Розмір кола може вказувати на відносне висвітлення теми. наприклад, якщо про нафту написано більше загальних статей, ніж масляний круг, то масляний круг має більший діаметр.


[Х,Y]

1
@NickStauner Я не бачив відредагованого питання з набором даних, коли спочатку відповів на це. Координати означатимуть не багато, а кількість видань. Кола можуть бути згруповані за темою або за розміром діаметра. Я не знаю, чому в першу чергу використовували відсотки, оскільки цифри надзвичайно малі.
rocinante
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.