Яких найкращих практик слід дотримуватися під час підготовки сюжетів?


40

Я, як правило, роблю власний ідіосинкратичний вибір, коли готую сюжети. Однак мені цікаво, чи є найкращі практики для створення сюжетів.

Примітка: коментар Роба до відповіді на це питання тут дуже актуальний.

Відповіді:


23

Принципи Туфте є дуже хорошою практикою при підготовці сюжетів. Дивіться також його книгу Красиві докази

Принципи включають:

  • Тримайте високе співвідношення даних та чорнила
  • Видаліть графік мотлоху
  • Дайте графічному елементу кілька функцій
  • Майте на увазі щільність даних

Термін для пошуку - Візуалізація інформації


4
Візуальне відображення кількісної інформації Tufte ( amazon.com/o/ASIN/0961392142/ref=nosim/gettgenedone-20 ) краще, ніж ІМО "Beautiful Evidence". Усі чотири його книги хороші, але якщо у вас є можливість відвідати один з його курсів, зробіть це.
Стівен Тернер

5
Я згоден з більшістю того, що каже Туфте, але мушу сказати, його низькі дані: чорнильні коробки з чорнилом є просто ідіотськими. Я думаю, що вони потребують мене в 3-4 рази довше, ніж це зрозуміли, ніж стандартні коробки. Значення за замовчуванням R набагато краще (хоча лінії на кінцях хвостів непотрібні). Традиційні боксерські машини мають додаткову перевагу в тому, що вони можуть представляти розмір зразка (з шириною) та стандартні відхилення (з прорізами).
naught101

2
+1 @ naught101 кілька інших поділяють цю думку на сайті SO: stackoverflow.com/questions/6973394/…
Бен,

15

Ми могли б залишатися тут цілий день, позначаючи кращі практики, але слід почати з читання Tufte. Моя основна рекомендація:

Не ускладнювати.

Часто люди намагаються зарядити свої діаграми інформацією. Але у вас дійсно має бути лише одна головна ідея, яку ви намагаєтеся передати, і якщо хтось не отримає ваше повідомлення майже одразу, то вам слід переосмислити, як ви його представили. Тому не починайте працювати над своєю діаграмою, поки повідомлення не стане зрозумілим. Бритва Оккама застосовується і тут.


1
Я погоджуюся з більшістю цього пункту, але я думаю, що "Тримайте це просто". може бути незрозумілим. Ваша основна суть полягає в тому, що ви повинні знати, що ви хочете передати діаграмі. "Не ускладнювати." висуває деякі інші ідеї, як-от "Співвідношення даних: чорнило повинно бути високим".
Томас Левін

Очевидно, що ця порада надзвичайно краща за протилежну. Але є ситуації, коли графік обов'язково складний і вимагає детального, ретельного, продуманого вивчення. Але ускладнення саме по собі повинно бути максимально простим. Наприклад, 25 сюжетів у матриці розміром 5 х 5 може знадобитися тривалого вивчення, але ідею, що кожен показує лише деякі дані, досить легко зрозуміти.
Нік Кокс

12

Одне головне правило, якого я не завжди дотримуюся, але яке іноді є корисним, - це врахувати, що цілком ймовірно, що ваш сюжет в якийсь момент свого майбутнього стане

  • надісланий факсом,
  • скопійовано та / або
  • відтворено чорно-білим.

Потрібно постаратися зробити свої сюжети достатньо зрозумілими, що навіть якщо вони в майбутньому будуть точно відтворені, інформація, яку намагається передати сюжет, все ще є розбірливою.


14
Думаю, ти маєш на увазі відправлений факсом у якийсь момент минулого ;)
hadley

+1 для цього. Ваша натхненна сюжет, серце вашої статті, не повинно бути абсолютно незрозумілим, оскільки я надрукував це.
Фоміт

ця відповідь вирішує подібну проблему.
naught101

8

Окрім того, щоб передати чітке повідомлення, я завжди намагаюся пам’ятати про сюжетне керівництво:

  • розміри шрифтів для міток та легенд повинні бути досить великими, бажано того ж розміру шрифту та шрифту, що використовуються в остаточній публікації.
  • ширина лінії повинна бути достатньо великою (лінії 1 пт, як правило, зникають, якщо ділянки скорочуються лише незначно). Я намагаюся переходити до ширини від 3 до 5 пт.
  • якщо намічається кілька наборів даних / кривих з кольором, переконайтеся, що їх можна зрозуміти, якщо вони надруковані чорно-білими, наприклад, використовуючи додаткові кольори різних символів або ліній стилів.
  • завжди використовуйте формат без втрат (або близький до втрат без втрат), наприклад, векторний формат, наприклад pdf, ps або svg або png або gif з високою роздільною здатністю (jpeg взагалі не працює і ніколи не розроблявся для лінійного мистецтва).
  • підготувати графіку в кінцевому співвідношенні сторін, яка буде використана у публікації. Зміна співвідношення сторін пізніше може надати дратівливі форми шрифту або символів.
  • завжди видаляйте з програми побудови невдалого скупчення, як-от невикористану інформацію гістограми, рядки тренду (навряд чи корисні) або заголовки за замовчуванням.

Я налаштував моє програмне забезпечення для побудови графіків (matplotlib, ROOT або root2matplotlib), щоб виконати більшість цього права за замовчуванням. Перш ніж я користувався, gnuplotтут потрібен додатковий догляд.


8

У галузі фізики існує правило, що весь документ / звіт повинен бути зрозумілим лише за допомогою швидкого огляду сюжетів. Тому я б головним чином порадив, що вони повинні бути роз'яснювальними.
Це також означає, що ви завжди повинні перевіряти, чи знайома ваша аудиторія з якимось сюжетом - я одного разу зробив велику помилку, вважаючи, що кожен вчений знає, що таке каси, а потім витратив годину, щоб пояснити це.


Симпатії на досвіді сюжетного досвіду, але з цього випливає: (а) використання відносно простого варіанту (наприклад, показ медіани, квартілів, 5% та 95% балів та всіх точок даних за межами), а не показ будь-чого, що базується на конвенції, орієнтованій на 1,5 IQR; (b) додавання підписів, які роблять явні умови.
Нік Кокс

6

Ось мої вказівки, засновані на найпоширеніших помилках, які я бачу (крім усіх інших хороших моментів)

  • Використовуйте графіки розкидання, а не графіки ліній, якщо порядок елементів не має значення.
  • Готуючи сюжети, які мають порівнюватись, використовуйте для всіх однаковий коефіцієнт масштабу.
  • Ще краще - знайти спосіб об'єднати дані в одному графіку (наприклад: boxplots - це кращий за кілька гістограм для порівняння великої кількості розподілів).
  • Не забудьте вказати одиниці
  • Використовуйте легенду лише в тому випадку, якщо це потрібно - це взагалі зрозуміліше позначити криві безпосередньо.
  • Якщо вам потрібно скористатись легендою, перемістіть її всередині сюжету, в порожнє місце.
  • Для лінійних графіків націліть на співвідношення сторін, яке дає рядки, орієнтовно на 45о зі сторінкою .

"boxplots є кращими за кілька гістограм для порівняння великої кількості розповсюджень" - це справедливо лише в тому випадку, якщо ваші дані є одномодовими і не мають куртозу чи інших функцій, які не можуть бути захоплені boxplots ..
naught101

6

Погляньте на графічну бібліотеку R, ggplot2. Деталі розміщені на веб-сторінці http://had.co.nz/ggplot2/ Цей пакет генерує дуже хороші графіки за замовчуванням, які відповідають принципам Tufte, інструкціям Клівленда та кольоровому пакету Ihaka.


6

Якщо намічаєте кольорову схему, врахуйте, що у людей з кольоровими сліпами можуть виникнути проблеми з розрізненням елементів лише за кольором. Тому:

  • Використовуйте стилі ліній для розрізнення ліній.
  • Використовуйте додаткову вагу в елементах, зробіть ширину лінії не менше 2 пт і т.д.
  • Використовуйте різні маркери, а також кольори, щоб виділити точки.
  • Використовуйте мітки та примітки, також посилаючись на позицію та стиль.
  • Звертаючись до елементів сюжету в тексті, опишіть їх за кольором, відносним положенням та стилем: "червона, верхня, крива штриха".
  • Використовуйте дружню палітру. Див http://www.vischeck.com/vischeck/ ,, http://jfly.iam.u-tokyo.ac.jp/color/#pallet . У мене є проста реалізація палітри python в останній посилання на code.google.com, шукайте python-cudtools

Також врахуйте той факт, що комусь, можливо, доведеться роздрукувати його на принтері із сірим кольором. Я робив це раніше - я використав кольори за замовчуванням ggplot2 (які чудово виглядають на екрані) для завдання, які потім я роздрукував чорно-білим кольором, і половину кольорів не можна було відрізнити від інших! * рум'янець *
naught101

4

Це чудові пропозиції. Ми зібрали багато матеріалів на http://biostat.mc.vanderbilt.edu/StatGraphCourse . Група статистиків у фармацевтичній галузі, наукових колах та FDA також створює ресурс, який буде дуже корисним для клінічних випробувань та відповідних досліджень. Багато нового матеріалу буде оприлюднено через місяць, але багато вже є - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph

Моя особиста улюблена графічна книга - Елементи графічних даних Вільяма Клівленда.

Що стосується програмного забезпечення, на мою думку, важко перемогти пакети ggplot2 та решітки R. Stata також підтримує чудову графіку.


3

Це також залежить від того, де ви не хочете публікувати свої сюжети. Ви заощадите собі багато клопоту, порадившись із посібником для авторів, перш ніж робити сюжети для журналу.

Також збережіть сюжети у форматі, який легко змінити або зберегти код, який ви використовували для їх створення. Цілком ймовірно, що вам потрібно внести виправлення.



2

Інші відповіді занадто формульні, щоб бути переконливими, тому дозвольте дати більш загальну відповідь. Я певний час боровся з цим питанням. Я пропоную цей процес:

  1. Знайте своє повідомлення
  2. Знайте свою аудиторію
  3. Знайте свої обмеження
  4. Пристосуйте ваше повідомлення до аудиторії, враховуючи ваші обмеження

Я скептично ставлюсь до бланкетних претензій, таких як "нехай це буде просто" - що це означає? Ну, це залежить від аудиторії. Деякі аудиторії будуть їсти стиль Tufte. Але деякі аудиторії оцінюють небагато сміття діаграми час від часу. Деяким людям нудно розкидатися. Дехто любить барвисті фони. Чи так неправильно залучати їх до себе, навіть якщо ви ставите під загрозу "естетичну" чистоту? Це вам вирішити.

Реакція вашої аудиторії буде важливим відгуком, але не єдиним. Якщо ви знайдете спосіб оцінити їх розуміння до і після презентації, тоді ви почнете розуміти вплив, який ви зробили.

"Правильна" відповідь буде залежати від таких питань:

  • Які засоби масової інформації ви будете використовувати?

  • Ви створюєте статичні чи інтерактивні сюжети?

  • Ви намагаєтесь розповісти заздалегідь визначену історію (експозицію) чи заохочуєте експериментувати (досліджувати)?

  • Наскільки ви хочете, щоб аудиторія зробила власні висновки?

  • Якою мірою ви хочете, щоб аудиторія наслідувала та переконувалась у вашій історії?

  • Наскільки ви хочете, щоб аудиторія оскаржувала ваші висновки?

Підсумовуючи, оформляйте свої матеріали навмисно, враховуючи ваше повідомлення, аудиторію та обмеження.


"Залучати", чи відволікати? Колір може бути нормальним, але ви зрештою тут щодо даних, і естетика повинна слугувати даним, а не навпаки.
naught101

2

Одне, що я, мабуть, пам’ятаю, як згадує Туфте, що не в інших відповідях - це картографування, - тобто зробити положення, напрямок, розмір тощо на вашому графіку репрезентувати реальність . Те, що є на графіку, повинно бути в реальному світі. Те, що є великим, має бути великим (маючи на увазі, що області повинні представляти області та обсяги. Ніколи не намагайтеся представляти скалярне значення за площею, це дуже неоднозначно!). Це стосується також кольорів, форм тощо, якщо вони доречні.

Цікавим прикладом є графік "серії спідниць" тут: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Хоча технічно це правильно, і «вище» довжина спідниці займає більш високе положення на графіку, на самому ділі це досить заплутаним, так як довжина спідниці починається від верхньої частини , і йде вниз ( в відміну від людей, або дерева, де ми вимірюємо висоту від земля). Так збільшена довжина спідниці насправді представляє нижчу величину:

skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))

введіть тут опис зображення

Є, як завжди, складнощі. Наприклад, ми, як правило, вважаємо час рухатися вперед, а на заході, принаймні, читаємо зліва направо, тому наші графіки часових рядів також зазвичай течуть зліва направо в міру збільшення часу. То що відбувається, якщо ви хочете зобразити щось, що найкраще представлено збоку (наприклад, вимірювання сходу-заходу чогось) з часом? У такому випадку вам доведеться піти на компроміс і зобразити час, який рухається вгору або вниз (який, напевне, залежить від культурного сприйняття, я думаю), або вибрати карту бічної змінної вгору / вниз на графіку.


1
Приклад торгівлі часом та простором - у книзі "Створення карт" (критична дискусія та приклади, наведені тут .
Енді Ш

Гарний (жахливий) приклад! Карти пропонують ще одну, більш складну торгівлю: намагаються представити 2 виміри + час на двовимірній сторінці (наприклад, карти континентального дрейфу). Досить складно. Але я припускаю , що це те , що анімація для :)
naught101

Ваш розповідний приклад дозволяє згадати два додаткових моменти, які часто виникають. 1. За часовою віссю назва або мітка типу "TIme" зазвичай є зайвими. 2. Назви або етикетки, такі як "спідниці", завжди можна покращити за допомогою короткого, але інформативного пояснення, включаючи одиниці вимірювання, коли це доречно.
Нік Кокс

1

Це залежить від способу обговорення сюжетів.

Наприклад, якщо я надсилаю сюжети для групових зборів, які будуть проводитись з абонентами з різних локацій, я вважаю за краще поєднувати їх у Powerpoint, на відміну від Excel, тому простіше перевернути.

Для технічних дзвінків "один на один" я додаю щось в excel, щоб клієнт міг відсунути сюжет убік і переглянути необроблені дані. Або я можу вводити значення p у комірки уздовж бічних коефіцієнтів регресії, наприклад

Майте на увазі: сюжети коштують дешево, особливо для слайд-шоу або для надсилання електронною поштою групі. Я вважаю за краще зробити 10 чітких сюжетів, які ми можемо прогорнути, ніж 5 сюжетів, де я намагаюся розмістити різні групи (наприклад, "самці та жінки") на одному графіку.


1

Додам, що вибір сюжету повинен відображати тип статистичного тесту, який використовується для аналізу даних. Іншими словами, будь-які характеристики даних, які використовувались для аналізу, повинні бути показані візуально - ви б показали засоби та стандартні помилки, якщо використовували б t-тест, але непрофесійні, якщо використовували тест Манна-Вітні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.