Я, як правило, роблю власний ідіосинкратичний вибір, коли готую сюжети. Однак мені цікаво, чи є найкращі практики для створення сюжетів.
Примітка: коментар Роба до відповіді на це питання тут дуже актуальний.
Я, як правило, роблю власний ідіосинкратичний вибір, коли готую сюжети. Однак мені цікаво, чи є найкращі практики для створення сюжетів.
Примітка: коментар Роба до відповіді на це питання тут дуже актуальний.
Відповіді:
Принципи Туфте є дуже хорошою практикою при підготовці сюжетів. Дивіться також його книгу Красиві докази
Принципи включають:
Термін для пошуку - Візуалізація інформації
SO
: stackoverflow.com/questions/6973394/…
Ми могли б залишатися тут цілий день, позначаючи кращі практики, але слід почати з читання Tufte. Моя основна рекомендація:
Не ускладнювати.
Часто люди намагаються зарядити свої діаграми інформацією. Але у вас дійсно має бути лише одна головна ідея, яку ви намагаєтеся передати, і якщо хтось не отримає ваше повідомлення майже одразу, то вам слід переосмислити, як ви його представили. Тому не починайте працювати над своєю діаграмою, поки повідомлення не стане зрозумілим. Бритва Оккама застосовується і тут.
Одне головне правило, якого я не завжди дотримуюся, але яке іноді є корисним, - це врахувати, що цілком ймовірно, що ваш сюжет в якийсь момент свого майбутнього стане
Потрібно постаратися зробити свої сюжети достатньо зрозумілими, що навіть якщо вони в майбутньому будуть точно відтворені, інформація, яку намагається передати сюжет, все ще є розбірливою.
Окрім того, щоб передати чітке повідомлення, я завжди намагаюся пам’ятати про сюжетне керівництво:
Я налаштував моє програмне забезпечення для побудови графіків (matplotlib, ROOT або root2matplotlib), щоб виконати більшість цього права за замовчуванням. Перш ніж я користувався, gnuplot
тут потрібен додатковий догляд.
У галузі фізики існує правило, що весь документ / звіт повинен бути зрозумілим лише за допомогою швидкого огляду сюжетів. Тому я б головним чином порадив, що вони повинні бути роз'яснювальними.
Це також означає, що ви завжди повинні перевіряти, чи знайома ваша аудиторія з якимось сюжетом - я одного разу зробив велику помилку, вважаючи, що кожен вчений знає, що таке каси, а потім витратив годину, щоб пояснити це.
Ось мої вказівки, засновані на найпоширеніших помилках, які я бачу (крім усіх інших хороших моментів)
Погляньте на графічну бібліотеку R, ggplot2. Деталі розміщені на веб-сторінці http://had.co.nz/ggplot2/ Цей пакет генерує дуже хороші графіки за замовчуванням, які відповідають принципам Tufte, інструкціям Клівленда та кольоровому пакету Ihaka.
Якщо намічаєте кольорову схему, врахуйте, що у людей з кольоровими сліпами можуть виникнути проблеми з розрізненням елементів лише за кольором. Тому:
Це чудові пропозиції. Ми зібрали багато матеріалів на http://biostat.mc.vanderbilt.edu/StatGraphCourse . Група статистиків у фармацевтичній галузі, наукових колах та FDA також створює ресурс, який буде дуже корисним для клінічних випробувань та відповідних досліджень. Багато нового матеріалу буде оприлюднено через місяць, але багато вже є - http://www.ctspedia.org/do/view/CTSpedia/PageOneStatGraph
Моя особиста улюблена графічна книга - Елементи графічних даних Вільяма Клівленда.
Що стосується програмного забезпечення, на мою думку, важко перемогти пакети ggplot2 та решітки R. Stata також підтримує чудову графіку.
Це також залежить від того, де ви не хочете публікувати свої сюжети. Ви заощадите собі багато клопоту, порадившись із посібником для авторів, перш ніж робити сюжети для журналу.
Також збережіть сюжети у форматі, який легко змінити або зберегти код, який ви використовували для їх створення. Цілком ймовірно, що вам потрібно внести виправлення.
Не використовуйте динамітні сюжети: http://pablomarin-garcia.blogspot.com/2010/02/why-dynamite-plots-are-bad.html , використовуйте сюжетні скрипки або подібні (сімейство боксерів)
Інші відповіді занадто формульні, щоб бути переконливими, тому дозвольте дати більш загальну відповідь. Я певний час боровся з цим питанням. Я пропоную цей процес:
Я скептично ставлюсь до бланкетних претензій, таких як "нехай це буде просто" - що це означає? Ну, це залежить від аудиторії. Деякі аудиторії будуть їсти стиль Tufte. Але деякі аудиторії оцінюють небагато сміття діаграми час від часу. Деяким людям нудно розкидатися. Дехто любить барвисті фони. Чи так неправильно залучати їх до себе, навіть якщо ви ставите під загрозу "естетичну" чистоту? Це вам вирішити.
Реакція вашої аудиторії буде важливим відгуком, але не єдиним. Якщо ви знайдете спосіб оцінити їх розуміння до і після презентації, тоді ви почнете розуміти вплив, який ви зробили.
"Правильна" відповідь буде залежати від таких питань:
Які засоби масової інформації ви будете використовувати?
Ви створюєте статичні чи інтерактивні сюжети?
Ви намагаєтесь розповісти заздалегідь визначену історію (експозицію) чи заохочуєте експериментувати (досліджувати)?
Наскільки ви хочете, щоб аудиторія зробила власні висновки?
Якою мірою ви хочете, щоб аудиторія наслідувала та переконувалась у вашій історії?
Наскільки ви хочете, щоб аудиторія оскаржувала ваші висновки?
Підсумовуючи, оформляйте свої матеріали навмисно, враховуючи ваше повідомлення, аудиторію та обмеження.
Одне, що я, мабуть, пам’ятаю, як згадує Туфте, що не в інших відповідях - це картографування, - тобто зробити положення, напрямок, розмір тощо на вашому графіку репрезентувати реальність . Те, що є на графіку, повинно бути в реальному світі. Те, що є великим, має бути великим (маючи на увазі, що області повинні представляти області та обсяги. Ніколи не намагайтеся представляти скалярне значення за площею, це дуже неоднозначно!). Це стосується також кольорів, форм тощо, якщо вони доречні.
Цікавим прикладом є графік "серії спідниць" тут: http://a-little-book-of-r-for-time-series.readthedocs.org/en/latest/src/timeseries.html . Хоча технічно це правильно, і «вище» довжина спідниці займає більш високе положення на графіку, на самому ділі це досить заплутаним, так як довжина спідниці починається від верхньої частини , і йде вниз ( в відміну від людей, або дерева, де ми вимірюємо висоту від земля). Так збільшена довжина спідниці насправді представляє нижчу величину:
skirts <- scan("http://robjhyndman.com/tsdldata/roberts/skirts.dat",skip=5)
skirtsseries <- ts(skirts,start=c(1866))
plot.ts(skirtsseries, ylim=c(max(skirts),min(skirts)))
Є, як завжди, складнощі. Наприклад, ми, як правило, вважаємо час рухатися вперед, а на заході, принаймні, читаємо зліва направо, тому наші графіки часових рядів також зазвичай течуть зліва направо в міру збільшення часу. То що відбувається, якщо ви хочете зобразити щось, що найкраще представлено збоку (наприклад, вимірювання сходу-заходу чогось) з часом? У такому випадку вам доведеться піти на компроміс і зобразити час, який рухається вгору або вниз (який, напевне, залежить від культурного сприйняття, я думаю), або вибрати карту бічної змінної вгору / вниз на графіку.
Це залежить від способу обговорення сюжетів.
Наприклад, якщо я надсилаю сюжети для групових зборів, які будуть проводитись з абонентами з різних локацій, я вважаю за краще поєднувати їх у Powerpoint, на відміну від Excel, тому простіше перевернути.
Для технічних дзвінків "один на один" я додаю щось в excel, щоб клієнт міг відсунути сюжет убік і переглянути необроблені дані. Або я можу вводити значення p у комірки уздовж бічних коефіцієнтів регресії, наприклад
Майте на увазі: сюжети коштують дешево, особливо для слайд-шоу або для надсилання електронною поштою групі. Я вважаю за краще зробити 10 чітких сюжетів, які ми можемо прогорнути, ніж 5 сюжетів, де я намагаюся розмістити різні групи (наприклад, "самці та жінки") на одному графіку.
Додам, що вибір сюжету повинен відображати тип статистичного тесту, який використовується для аналізу даних. Іншими словами, будь-які характеристики даних, які використовувались для аналізу, повинні бути показані візуально - ви б показали засоби та стандартні помилки, якщо використовували б t-тест, але непрофесійні, якщо використовували тест Манна-Вітні.