Чи є теплові карти «одним з найменш ефективних видів візуалізації даних»?


22

Питання: Коли (для яких типів проблем із візуалізацією даних) теплові карти є найбільш ефективними? (Зокрема, ефективніше, ніж усі інші можливі методи візуалізації?)

Коли теплові карти найменш ефективні?

Чи існують якісь загальні шаблони чи правила, за допомогою яких можна визначити, чи може теплова карта бути ефективним способом візуалізації даних, і коли вони можуть бути неефективними?

(В основному я маю на увазі теплові карти для 2-х категоріальних змінних та 1 безперервної змінної, але мені також цікаво почути думки щодо інших типів теплових карт.)

Контекст: Я беру онлайн-курс щодо візуалізації даних, і зараз вони обговорюють неефективні та надмірно використовувані типи сюжетів. Вони вже згадували про динамітні сюжети та кругові діаграми, і причини, чому вони неефективні та чому є кращі альтернативи для них, були для мене зрозумілими та переконливими. Крім того, було легко знайти інші джерела, що підтверджують дану думку щодо динамітових сюжетів та кругових діаграм.

Однак курс також сказав, що "теплові карти - це один з найменш ефективних видів візуалізації даних". Перефразовуючи причини, які наведені нижче. Але коли я намагався знайти інші місця в Google, щоб підтвердити цю точку зору, у мене виникло багато труднощів, на відміну від пошуку думок про ефективність кругових діаграм та динамітових сюжетів. Тож я хотів би знати, наскільки достовірна характеристика теплових карт, наведених у курсі, і коли фактори проти них є найменш важливими та найважливішими для даного контексту.

Наведені причини:

  1. Важко відобразити колір на суцільній шкалі.

    З цього правила є деякі винятки, тому зазвичай це не є вимикачем угоди, але у випадку з тепловими картами проблема особливо складна, оскільки наше сприйняття кольору змінюється залежно від сусідніх кольорів. Таким чином, теплові карти недостатньо підходять для перегляду індивідуальних результатів, навіть у невеликих наборах даних. Що призводить до:

  2. Відповідати на конкретні запитання методом пошуку таблиці, як правило, не представляється можливим, оскільки неможливо з достатньою точністю зробити висновок про числове значення, яке відповідає даному кольору.

  3. Часто дані не кластеруються таким чином, щоб виявити тенденції.

    Без такої кластеризації часто важко або неможливо зробити висновок про загальні загальні закономірності.

  4. Теплові карти часто використовуються лише для передачі "вау-фактора" або просто для того, щоб виглядати круто, особливо при використанні багатобарвного градієнта, але зазвичай є кращі способи передачі даних.

Складання безперервних даних у загальному масштабі - це завжди найкращий варіант. Якщо є часова складова, найбільш очевидним вибором є сюжетна лінія.


15
Критика "теплових карт" зводиться до останнього рядка (4): які саме ці "кращі способи" спілкування? (Якщо кращих способів немає, то (1) - (3) є мало актуальними.) Якщо мета буквально полягає в повідомленні даних , то, очевидно, є кращі способи: запишіть числа. Однак метою візуалізації рідко є передача даних: натомість це підтримка інтерпретації або надсилання повідомлення. Які інтерпретації має на увазі ваше джерело, і що, на його думку, є кращими способами подання цих тлумачень?
whuber

4
@whuber Як доповнення до цього - одна дуже приємна річ про теплові карти полягає в тому, що в багатьох випадках їх легко доповнити, відображаючи необроблені дані (можливо, відповідні округлені) безпосередньо на кожній плитці. Навіть використання умовного форматування для фонового кольору комірок на електронній таблиці є дуже ефективною і дуже поширеною "тепловою картою" сортів, в цьому контексті важко зрозуміти, як їх можна покращити.
Срібна рибка

2
Мій коментар стосується лише критики 1. Правильно, що колір (відтінок) не відображається до впорядкованої шкали психологічно, хоча і фізично (довжина хвилі). Однак, додавши зайві розміри, такі як яскравість, можна зробити їх легшими інтерпретувати. У вас може бути темніше вище світлого, але використовувати такі кольори, як світло-синій та темно-червоний.
Девід Лейн

2
Залежить від контексту. Ось чудовий приклад цінної, корисної інформації, отриманої за допомогою теплової карти, для якої я не можу придумати жоден інший більш зручний чи корисний тип візуалізації даних.
Джейсон С

5
Колір є зайвим (і, правда, погано підібраним - це просто кольорова карта зображення за замовчуванням у R), але ось приклад про програму "Міночистка", яку я працював кілька років тому. Я виявив, що теплова карта одразу засвічується тим, що вона розкриває структуру проблеми, яка стає інтуїтивно зрозумілою, як тільки ти її побачиш і подумаєш про неї на мить, але яка не відразу очевидна (для більшості людей) до того, як побачити сюжет.
кардинал

Відповіді:


15

Не існує такого поняття, як "найкращий" сюжет для того чи іншого. Спосіб побудови ваших даних залежить від повідомлення, яке ви хочете передати. Загальновживані сюжети мають ту перевагу, що користувачі, швидше за все, зможуть їх прочитати. Тим не менш, це не означає, що вони обов'язково є найкращим вибором.

Щодо теплових карт, я наказав свою відповідь передбачуваними аргументами проти них.

Оголошення 1) Якщо ви не довіряєте кольору як каналу кодування, використовуйте натомість яскравість із шкалою, що охоплює темно-сірий та світло-сірий "кольорові" тони. Найчастіше ви хочете поповнити безперервні змінні (також див. 5), щоб ви могли зберегти низьку кількість кольорів і полегшити розшифровку користувачами. Це не обов'язково. Погляньте на цей приклад , коли суцільна змінна не поширюється.

Оголошення 2) Безумовно, їх не слід використовувати як альтернативу для пошуку точних значень. Карти тепла насамперед слід використовувати для ілюстрації візерунків, а не для заміни таблиць.

Оголошення 3 + 4) Я не бачу, як це стосується лише теплових карт.

Оголошення 5) Теплові карти в ідеалі, але не обов'язково використовуються з дискретними змінними. Для безперервних змінних теплові карти можуть бути використані як своєрідна двовимірна гістограма або гістограма, з належним бінінгу, а також яскравістю в якості каналу кодування.


2
Дивовижна відповідь! За винятком того, що я не знаю, що означає "Оголошення". Латинська? Скорочення?
xan

1
Спасибі! "оголошення" означає "на" або "щодо", я думаю, що це походить з латинської мови.
g3o2

Я ніколи не бачив, щоб "реклама" використовувалась таким чином (куб.см, @xan). З вашого опису, я думаю, я можу використовувати темп .
gung - Відновіть Моніку

1
Також не забудьте відкоригувати гамма-коригування теплових карт на основі яскравості.
користувач253751

3
@gung Не дуже, ІМО. Він не має конотацій, на відміну від темпу - це просто означає, крім того, доповнення, посилаючись на, не кажучи вже про те, що він був універсальним на Заході, походить з латини та широко використовується в теології та науково-політичній літературі, серед інші речі. У діалоговому вікні (пошта) дві сторони використовуватимуть його для позначення аргументів до кожного з пунктів. Це, здається, впадає в недоброзичливість, коли письмова мова стає врізаною. Звичайна заміна - це просто використання "1.1" замість "Оголошення 1.1", що може бути трохи заплутано і здається мені трохи грубим, але добре.
Луань

5

Хтось не може сказати, що Теплова карта є найменш ефективним типом візуалізації. Я б сказала, що це залежить від вашої вимоги. У деяких випадках карти тепла дуже корисні. Скажімо, ви повинні скласти звіт про злочини в країні (або для міста). Тут у вас буде величезний набір даних, який може мати залежність від часу.

Так само, скажімо, ви повинні підготувати звіт про споживання електроенергії для міст. У цих випадках ви можете легко візуалізувати за допомогою Тепла карта. Це матиме більше сенсу і буде менш громіздким.

Отже, у двох словах, якщо у вас є безліч безперервних даних і ви хочете скласти звіт, який зможе швидко визначити відповіді, тоді найкраще підійде карта теплоти.


2
Для споживання енергії часто немає кращого сюжету, ніж теплова карта: argustech.be/wp-content/uploads/2012/04/heatmap.png Вихідні та робочі години стрибають прямо у глядача. Ви можете бачити основне навантаження, ви можете бачити піки, ви можете бачити, коли вони відбуваються. Ви можете виявити будь-який дивний зразок за кілька секунд, наприклад, якщо якийсь електричний пристрій завжди увімкнено, або запуститься занадто рано або занадто пізно.
Ерік Думініл

4

Критика 1 в первинному питанні охоплює найбільший недолік - те, що комусь, хто читає теплову карту, важко розшифрувати кількісну інформацію, яка передається. Розглянемо графік xy-розсіяння або крапковий сюжет, де основна величина безпосередньо пов'язана з відстані на діаграмі - дуже прямої для інтерпретації.

У тепловій карті, з іншого боку, людина, яка читає діаграму, може вільно інтерпретувати 10% «червоніші» або «темніші» на власне задоволення. На додаток до цього проблема різної здатності людей розпізнавати колір і відтінок для початку. Це справжні недоліки, але вони не є загально фатальними.

Третя критика, навпаки, ненароком виявляє привід, коли теплові карти є особливо корисними - коли дані кластеруються на 2D площині, щоб подібні значення в третьому вимірі відображалися як патчі певного відтінку чи кольору. Тож хоча теплові карти в одних речах малоефективні, вони корисні для інших, і вони повинні залишатися у вашій сумці так само, як гольфісти часто носять пітчингові клини чи подібне, незважаючи на те, що вони непридатні для водіння або покладання, або столяри не роблять. нехтуйте молотками, оскільки вони не корисні для різання деревини.

Загалом візуалізація даних слід розглядати як ітераційну діяльність, яка займе певний час, коли ви спробуєте здійснити ряд візуалізацій, які виявляють важливі особливості даних, включаючи спробу декількох видів візуалізації, а потім експерименти, щоб знайти найкращі налаштування в межах конкретний вибір. Не слід також вважати, що результатом буде одна візуалізація - іноді потрібна низка візуалізації даних, щоб виділити декілька важливих особливостей даних. У цьому контексті настануть часи, коли для конкретних особливостей певних наборів даних теплова карта буде найбільш ефективною, а комунікаційні кластери, як описано, можуть бути одним із таких часів. Загалом, трапляються часті випадки, коли одна візуалізація не може зробити все, і потрібно буде більше одного.


3

Як вже говорили інші, сказати, що теплові карти завжди малоефективні, насправді неправильно. Насправді вони досить ефективні в багатьох випадках.

Наприклад, якщо ви хочете візуалізувати дані 4D, досить просто виконати перші три виміри у багатьох програмних програмах. Однак усю концепцію 4D взагалі досить складно концептуалізувати. Що таке "4-й" напрям / розмір?

Ось де теплова карта може бути ефективною, оскільки вона дозволить побудувати перші три виміри на осі координат, а четвертий можна візуалізувати, розмістивши теплову карту на вашій наміченій площині (або лінії, але це менш вірогідно).

Підсумок полягає в тому, що вам потрібен контекст. Що ви шукаєте у своїй візуалізації? Також, як колега-викладач, я можу вам сказати, що ці онлайн-курси, як правило, дуже тривіальні та недобрими. Вам набагато краще використовувати їх лише тоді, коли шукаєте інформацію / допомогу з певних тем, а не шукаєте, щоб вас викладали з цілого предмета.

Найкраща удача все-таки.


3

За своєю природою теплова карта відображає дані з двома безперервними незалежними змінними (або, не зовсім рівнозначно, однією незалежною змінною з двовимірного векторного простору) та однією безперервною залежною змінною. Для даних цього типу теплова карта, безумовно, є одним з найбільш ефективних типів візуалізації даних. Так, у нього є свої проблеми, але це неминуче: у вас дійсно є лише два виміри, з якими працювати, і тривимірний простір неможливо відобразити до цього структурно-зберігаючим способом , тому вам потрібен хак, як зіставлення одного виміру в колір або малювання контурних ліній тощо.

R2X×Y|X||Y|, що є кінцевим для категоріальної змінної - іншими словами, декартовий добуток двох категоріальних змінних можна розглядати як єдину категоричну змінну ! І в цьому світлі ви можете так само добре використовувати інші сюжети, у яких немає проблем з тепловою картою.

Якщо ви опинитесь у ситуації, коли теплова карта над двома категоричними змінними видається корисною, це є свідченням того, що це, мабуть, не зовсім категоричні змінні, а скоріше кількісні безперервні змінні.


4
Ця відповідь цікава, але я вважаю, що дає короткий зміст поняттю використання теплових карт з категоричними змінними. Наприклад, можна класифікувати категоріальні рівні за їх кількістю (або якусь іншу відповідну змінну сортування), а потім використовувати теплову карту для візуалізації спільного розподілу або якоїсь іншої кількості, яка змінюється в залежності від загальних категорійних рівнів. Це можна прив’язати до копул (і узагальнених їх понять). Такі візуалізації, коли вони зроблені добре, можуть виявити реальну структуру даних, яку в іншому випадку було б важко виявити. (...)
кардинал

(...) І такий підхід не залежить від будь-якого (прямого) поняття вбудовування категоріальних рівнів у евклідовий простір.
кардинал

Мені було цікаво, чи є у вас коментар щодо практики використання теплових карт для експресії генів / даних мікромасив - це, здавалося б, випадки використання теплових карт для 2 категорійних та однієї безперервної змінної, для яких категоричними змінними насправді не може бути інтерпретується як квантовані суцільні змінні. Або я здогадуюсь теплові карти для кореляційних матриць категоріальних змінних загалом.
Chill2Macht

3

Теплові карти чудово забезпечують спрощений вигляд декількох змінних з точки зору часових рядів - дані можуть бути абсолютними змінами в часі або стандартизуватися за допомогою балів Z або інших засобів для вивчення змінних з різними інтервалами вимірювань або відносними змінами підгруп. Це забезпечує дуже візуально помітний вигляд, що можна помітити кореляції - або перевернути і замінити безліч графіків. Вони також можуть бути використані при попередній обробці для оцінки можливого зменшення розмірності, тобто факторингу або PCA.

Неправильно втручаються змінні та інші фактори можуть бути прихованими і пропущеними при використанні цього підходу для точкових кореляцій. Такі ж приховані аспекти трапляються і з лінійними графіками, проте, враховуючи велику кількість змінних, мій досвід полягає в тому, що теплові карти приносять стільки інформації, що користувач не враховує втручаються аспекти, ані інші приховані фактори.

Це з точки зору науковця даних з прогресивної економічної точки зору з 20 років в галузі виробництва даних і покладено на завдання освоїти широку громадськість такими даними.


1

Теплові карти вигідніші порівняно з розліковими пристроями, коли на скетермері занадто багато точок даних для перегляду. Це може бути пом’якшене у розкиданому апараті за допомогою напівпрозорих точок даних, але понад певний поріг краще узагальнити дані.

У цьому дописі в блозі наведено переконливий приклад розсипчастин, які важко інтерпретувати.

Скептер може лише візуально представляти щільність до певного порогу - поріг "балів скрізь" ...

Щільність ділянки, не бали

Рішення полягає в побудові графіку скореної щільності точки, а не самих точок. Ми вже знаємо цей метод в одному вимірі як гістограма.

У двох вимірах існує кілька способів зробити це. Форми відрізків можна взяти за будь-якого способу рівномірного облицювання площини, наприклад квадратів або шестикутників. Для кожної плитки підраховується кількість точок даних всередині плитки. Потім плитці присвоюється колір відповідно до кількості очок.

Аналогічне твердження з ggplot2 docs на тепловій карті з 2d відраховується :

Це корисна альтернатива geom_point()при наявності перезволоження.

У документах geom_point():

Перенагрівання

Найбільшою потенційною проблемою з розсіювачем є перенапруження: кожного разу, коли у вас більше декількох точок, точки можуть бути нанесені один на одного. Це може сильно спотворити візуальний вигляд сюжету. Немає жодного рішення цієї проблеми, але є деякі методи, які можуть допомогти. Ви можете додати додаткову інформацію за допомогою geom_smooth(), geom_quantile()або geom_density_2d(). Якщо у вас є кілька унікальних значень x, geom_boxplot()також може бути корисно.

Як альтернативи, ви можете підсумувати кількість точок в кожному місці і показати , що в деякому роді, використовуючи geom_count(), geom_hex()або geom_density2d().

Ще одна техніка - зробити точки прозорими (наприклад geom_point(alpha = 0.05)) або дуже маленькими (наприклад geom_point(shape = ".")).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.