Правка III: Я знайшов надзвичайно чудовий приклад багатовимірної кількісної візуалізації даних, і мені довелося додати його. Ви знайдете його під заголовком "Правка III (Нобелівські лауреати)".
Редагувати II: виникло невелике непорозуміння, і я відредагував спробу уточнити, як я трактую цільове використання даних. Я замінив два зображення і додав розділ "Хочеш смажитися з цим?"
Графіка виявляє дані.
Едвард Туфте:
Безлад та плутанина - це невдачі дизайну, а не атрибути інформації. Безлад вимагає дизайнерського рішення, а не зменшення вмісту. Досить часто, чим інтенсивніша деталізація, тим більше ясності та розуміння, оскільки сенс і міркування невблаганно КОНТЕКСТУАЛЬНІ. Менше - це нудьга.
Чому ми візуалізуємо дані?
- Інструменти для мислення
- Показати результат інтенсивного бачення
- Щоб зрозуміти проблему, прийняти рішення
- Показати порівняння, проявити причинність
- Наведіть причини вірити
Як?
- показати дані
- спонукають глядача до думки про суть, а не про методологію, графічний дизайн, технологію графічного виробництва чи щось інше
- не перекручуйте, що дані повинні сказати
- представити безліч номерів на невеликому просторі
- зробити великі набори даних когерентними
- заохочуйте око порівнювати різні фрагменти даних
- розкрийте дані на кількох рівнях деталізації, від широкого огляду до тонкої структури.
- служать досить чіткою метою: опис, розвідка, складання та прикраса.
- тісно інтегруватися зі статистичними та словесними описами набору даних.
Кілька визначень:
Дані:
як правило, вважається "речі, які сортуються в базах даних". Звичайно, це можуть бути цифри, зображення, звук, відео тощо. Дані - це те, що можна збирати, а часто - кількісно. У своєму найпаворотнішому вигляді важко перетравлюється; просто стінки цифр. Ти знаєш; Матриця . Взагалі кажучи, ми не маємо величезні бази даних , що складаються з нулів, для всіх речей ми НЕ маємо, навіть якщо іноді речі , які ми не маємо, речі , які є найбільш інформативними . Таким чином , щоб побачити , що у нас немає, ми повинні представити себе , що ми дійсно маємо.
Інформація:
це те, що ви можете отримати з даних . Показуючи дані якось, ми можемо отримати інформацію . Одним із прикладів, які я часто використовую, є те, що якщо я надам вам список країн світу і скажу вам, що двох немає, дуже малоймовірно, що ви знайдете їх на основі цього списку. Однак якщо я покажу це, розфарбувавши на карті всі країни, які я маю, ви вмить побачите, що я пропустив Центральноафриканську республіку та Нову Каледонію. Це "зменшення шуму" і розповідання історії найбільш ефективним способом.
Інфографіка та візуалізація даних:
Я вагаюся, називаючи вашу приклад інфографікою. Я знаю, що це часто сприймається як синоніми візуалізації даних, дизайну інформації чи архітектури інформації, але я не згоден. Інфографіка - для мене - це низка графіків, діаграм та ілюстрацій, які цілком можуть містити купу упереджених висловлювань про те, як читати дані. Менш об'єктивний, більш схильний пропускати дані, які не є в інтересах творця: ви орієнтуєтесь на висновок, який хтось заздалегідь визначив. Вони мають розважальну цінність, і вони часто мають переважне використання ілюстрацій, що позбавляє певної уваги від даних. Це добре, але я думаю, що нам слід трохи розмежуватися.
Приклади
Основні дані:
Майте на увазі, що великі дані - це не те саме, що складні дані. Багато даних може бути просто однаковим, як, наприклад, ця карта LinkedIn: основні дані однакові, але є фільтри (шляхом позначення). Є дві змінні: географія та якийсь тег, що визначає людей на професії / інтереси / відносини. Божевільний обсяг даних; але лише дві змінні.
Багатовимірна:
Ось приклад багатовимірної візуалізації даних. Це графік Чарльза Мінара 1869 року, який показує кількість чоловіків у російській кампанії 1812 року Наполеона, їхні рухи, а також температуру, з якою вони стикалися на зворотному шляху.
Велика версія тут.
Щоб зламати код, потрібно небагато часу, але коли ви це зробите, це чудово. Покриті змінні:
- чисельність армії (кількість живих / загиблих)
- географічне положення
- напрямок (схід - захід)
- температура
- час (дати)
- причинно-наслідковий зв’язок (загинув у боях та холоді)
Це дивовижна кількість інформації в простій, двоколірній карті. Географічна частина стилізована, щоб дати можливість іншим змінним, але ми не маємо проблем з цим.
Ось більш хитра. Це буде набагато простіше прочитати, якщо ви ознайомитеся з основними еволюційними візуалізаціями, кладограмами, філогенікою та принципами біогеографії. Майте на увазі, що він зроблений для людей, знайомих з цим, тому це спеціальна наукова карта. Ось що це показує: Філогеографічне зображення родів отруйних жаб з Південної Америки. Карти зліва показують основні біогеографічні регіони, оскільки вони змінюються в часі, а зображення праворуч показує лінії жаб в контексті їх біогеографічного походження. (За матеріалами Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R та ін. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], через Wikimedia Commons). Коли ви "зламаєте код", він дико, дивно інформативний.
Невеликі кратні блискітки:
Я не можу наголосити на цьому достатньо: ніколи не варто недооцінювати значення повторюваної інформації чи розділяти її на окремі однакові візуалізації. Поки порівняти один графік з іншим досить просто, це абсолютно чудово. Ми - машини пошуку тексту. Це часто називають маленькими кратними. У нас є досить багато проблем з аналізом цих зображень, і чіпляти все в один великий графік часто безглуздо, коли десять малих будуть працювати ще краще:
Інший:
І той, що використовує різні, але повторювані графіки:
Іскраві лінії - це термін, придуманий Едвардом Туфте, а також перетворений у
повністю функціонуючу, повністю настроювану бібліотеку JavaScript. Вони є в основному крихітними діаграмами, які можна вставити в текст, як частину тексту, а не як "зовнішній" об'єкт. Ось як виглядає за замовчуванням:
Редагувати III (Нобелівські лауреати)
Мені просто довелося додати цю візуалізацію даних, яку я знайшов, це просто занадто добре: вона показує нобелівських лауреатів. Який університет, який факультет, предмет, рік, вік, рідні міста, чим це було поділено, рівень ступеня. Справді прекрасні докази. Це все кількісно вимірювані дані. Більше тут.
Ваші дані
Усі питання @Javi ставлять надзвичайно важливо.
Що ви намагаєтеся зробити, це створити наочний інструмент для мислення. Для цього потрібно отримати найкращу якість співвідношення сигнал / шум. З чим ви боретеся - це співвіднесення даних, що мають різні змінні, в інформацію . Ось питання: що має бути приблизно правильним і що має бути саме правильним? Яка мета?
Я припускаю, що ви хочете відображати дані без особливої упередженості: ви хочете, щоб читач сам знаходив кореляції, якщо є якісь кореляції. Ваша мета полягає не в тому, щоб сказати людям, що гамбургери погано для них або що жінки їдять менше гамбургерів, ніж чоловіки, а дозволити їм "бачити" це, якщо саме це містять дані (уявіть, якби ці три людини були сім'єю. Це було б розгойдуємо наш погляд на всю бургер-їжу-графік тад).
Ваш набір даних настільки крихітний, що ви можете просто помістити його в таблицю, і це буде добре. Але звичайно мова йде про загальну ідею:
Невелика деталь: час (вік), як правило, вважається горизонтальним зліва направо (часові рамки). Важте щось, що знаходиться вниз, тому переключення вашого x - y було б хорошою ідеєю.
1. Які унікальні, нерухомі сутності?
2. що таке змінні (е ..)?
- Вага (кг)
- Вік (років)
- Кількість гамбургерів (ціле число)
- Тип гамбургера (ціле число)
Примітка: ваші дані повністю складаються з одиниць. Лічильний, кількісно вимірюваний кожен на окремому ментальному масштабі. Кіло, вік, вага та цифри. А в базі даних говорять, їх імена є ключами. Коли ви починаєте робити візуалізації в просторі, це стає справжнім головним болем. Уявіть, що вам слід додати місце народження, поточний дім тощо.
Єдині два, у яких є кореляція, - це кількість гамбургерів і більше, або ні, це комбо. Усі інші змінні є незалежними, і лише одна є фіксованою (ім'я). У якийсь момент із великими наборами даних навіть імена стають нецікавими, і їх замінюють демографічні, вікові, статеві чи подібні.
За допомогою цього крихітного набору даних ви зможете отримати все це в одному графіку, наприклад, таким:
Або ви можете змінити зміст осі та вмісту міхура:
Особиста примітка: Я думаю, що це краще з двох, тому що x і y містять "фізичні" властивості людини. Змінна в бульбашках тут - кількість гамбургерів.
Ви також можете додавати кругові діаграми на додаток до графіка або навіть мати лише кругові діаграми. Особисто я мав би і те, і інше, як згадувалося про малі кратні:
Ви хочете фрі з цим?
Моє припущення було те, що ми також хотіли знати співвідношення гамбургерів до їжі. Кожна їжа містить бургер. Не всі страви є спільними.
- чи хочемо ми лише знати, чи людина іноді їсть комолі?
- або ми хочемо знати, скільки страв з гамбургерів також є спільними?
Якщо 1., булева застосована до імені / ключа / id.
Джейн іноді їсть комолі? Правда / хибність.
Якщо 2. ми можемо застосувати булеву до кожного прийому їжі:
1 чизбургер, комбомальний = справжній
1 чизбургер, комбомальний = справжній
1 чизбургер, комбамальний = помилковий
1 чизбургер, комбамальний = помилковий
1 чизбургер, комбамальний = помилковий
1 чизбургер, комбамальний = помилковий
1 чизбургер, комбамальний = помилковий
1 яловичий бургер, комбомальний = справжній
1 яловичий бургер, комбомальний = справжній
1 яловичий бургер, комбомальний = хибний
Це дуже нудно, тому ми можемо розбити це на:
Джейн їсть 10 гамбургерів. З них три - комбо ("чи хочеш, щоб фрі з цим?").
Одним із комбайнів є меню з яловичиною.
Двоє із комодалів - це чизбургерське меню.
Решта - це одиночні бургери. 5 сиру, дві яловичини.
Ця схема була спробою візуалізувати це. Я в цій версії зберігав пиріжки, щоб було зрозуміліше. Річ у цьому полягає в тому, що починати застосовувати великі набори даних і% було б не стрибком:
Але я думаю, що найкращий спосіб - переосмислити.
Ще один спосіб поглянути на це - зробити це дійсно дуже просто. Тут простіше зрозуміти, які вікові групи, які вагові групи та всі дані, які ви не маєте, можуть нам сказати. Дані, які ви маєте, не пов'язані з космосом, це лише одиниці (кг, роки, цифри + ключ / id / ім’я):
(Редагувати: Яйце на моєму обличчі: я замінив ці зображення на більш правильні, оскільки "всі страви - це гамбургери, а не всі страви - комбо")
Це було б досить легко розширити більше людей:
Або, що ще краще, якщо порівнювати вікові групи 10, 20 та 30 років, ви можете зробити досить простий для читання статистичну візуалізацію:
..І просто щоб бути максимально зрозумілим; ось приклад такого способу мислення. Ця діаграма показує вижили на Титаніку, співвідношення екіпажу, класу, чоловіків, жінок.
Буде маса інших рішень, це лише кілька думок.
Я міг би продовжувати і продовжувати, але зараз я виснажив себе і, мабуть, усіх.
Інструменти для гри:
гефі
Gapminder Дивіться цю
феноменальну презентацію TED Ганса Рослінга - любите цього хлопця
Діаграми Google
сомвіс
Рафаель
Виставка MIT (раніше називалася Similie)
d3
Високі показники
Подальше читання:
PJ Onori; На захист важко
Едвард Туфте: Прекрасні докази
Едвард Туфте: Проведення інформації
Едвард Туфте: Візуальне відображення кількісної інформації
Візуальні пояснення: образи та кількості, докази та розповідь
Чоловік, Алан., 2007 Ілюстрація теоретичної та контекстуальної перспективи Лозанна, Швейцарія; Нью-Йорк, Нью-Йорк: AVA Academia
Isles, C. & Roberts, R., 1997. У видимому світлі, фотографії та класифікації в мистецтві, науці та побуті, Оксфордський музей сучасного мистецтва.
Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Читання з інформаційної візуалізації: Використання бачення для думки 1-е видання, Морган Кауфман.
Графтон, А. та Розенберг, Д., 2010. Картографії часу: історія часової шкали, Принстонська архітектурна преса.
Ліма, М., 2011. Візуальна складність: картографування моделей інформації, Прінстонська архітектурна преса.
Bounford, T., 2000. Цифрові діаграми: як ефективно конструювати та подавати статистичну інформацію 0 ред., Уотсон-Гуптілл.
Steele, J. & Iliinsky, N. edds., 2010. Прекрасна візуалізація: погляд на дані очима експертів 1-е видання, O'Reilly Media.
Gleick, J., 2011. Інформація: історія, теорія, потоп, пантеон