Коли корисна у використанні інтерактивна візуалізація даних?


17

Готуючись до бесіди, яку я незабаром розповім, я нещодавно почав розбиратися у двох основних (безкоштовних) інструментах для інтерактивної візуалізації даних: GGobi та mondrian - обидва пропонують широкий спектр можливостей (навіть якщо вони трохи помийні).

Я хочу попросити вашої допомоги в артикуляції (як для себе, так і для своєї майбутньої аудиторії) Коли корисно використовувати інтерактивні сюжети? Чи для дослідження даних (для себе) та представлення даних (для "клієнта")?

Оскільки, пояснюючи дані клієнту, я бачу значення анімації для:

  • Використовуючи "ідентифікувати / зв'язувати / щітку", щоб побачити, яка точка даних на графіку - що.
  • Представлення аналізу чутливості даних (наприклад: "якщо ми видалимо цю точку, ось що ми отримаємо)
  • Показ ефекту різних груп у даних (наприклад: "давайте подивимось на наші графіки для чоловіків, а тепер і для жінок")
  • Показ ефекту часу (або віку, або загалом, пропонування іншого викладу)

Бо коли ми самі досліджуємо дані, я бачу значення ідентифікації / зв’язування / щітки при дослідженні сторонніх даних у наборі даних, над яким ми працюємо.

Але, окрім цих двох прикладів, я не впевнений, які ще практичні можливості використовувати ці методи. Особливо для власного дослідження даних!

Можна стверджувати, що інтерактивна частина корисна для вивчення (Наприклад) різної поведінки різних груп / кластерів у даних. Але коли (на практиці) я підійшов до такої ситуації, те, що я прагнув зробити, - це запустити відповідні статистичні процедури (і пост-спеціальні тести) - і те, що я виявив важливим, я б потім побудував кольори, чітко розподіляючи дані на відповідні групи. З того, що я бачив, це більш безпечний підхід, а потім "цікавлення" даних (що може легко призвести до днопоглиблення даних (якщо сфера багаторазового порівняння, необхідна для виправлення, навіть не зрозуміла).

Я був би дуже радий прочитати ваш досвід / думки з цього приводу.

(це питання може бути вікі - хоча це не суб'єктивно, і продумана відповідь із задоволенням здобуде мій знак "відповіді" :))


3
Принаймні в моєму випадку я дещо в одному човні. Я ціную Mondrian і постійно його оновлюю, але коли я фактично вивчаю новий набір даних, він, як правило, знаходиться в R, який є менш інтерактивним, але в цілому більш гнучким. Я почав писати тобі повну відповідь і зрозумів, що кажу з теоретичного, а не з фактичного досвіду.
Уейн

Відповіді:


8

На додаток до пов'язування кількісних чи якісних даних з просторовими моделями, як це проілюстрував @whuber, я хотів би зазначити використання ЕДА, зібравши щітки та різноманітні зв'язуючі ділянки разом, для поздовжнього та об'ємного аналізу даних.

І те й інше обговорюється у чудовій книзі « Інтерактивна та динамічна графіка для аналізу даних за допомогою R та GGobi» Діанна Кука та Дебори Ф. Суейн (Springer UseR!, 2007), яку ви точно знаєте. Автори провели приємну дискусію з приводу EDA в розділі 1, виправдовуючи необхідність EDA "змусити нас несподівано", цитуючи Джона Тукі (стор. 13): Використання інтерактивних та динамічних дисплеїв не є ні прослуховуванням даних , ні попередніми даними перевірка (наприклад, суто графічні підсумки даних), але вона розглядається лише як інтерактивне дослідження даних, яке може передувати або доповнювати статистичне моделювання, засноване на чистій гіпотезі.

Використовуючи GGobi разом з його R - інтерфейс ( rggobi ) також вирішує проблему , як генерувати статичні графіки для проміжного звіту або остаточної публікації, навіть з проецированию Pursuit (стор. 26-34), завдяки DescribeDisplay або ggplot2 пакетів.

У цьому ж рядку Майкл Дружній давно виступає за використання візуалізації даних у категоричному аналізі даних, що значною мірою є прикладом у пакеті vcd, а також у більш пізньому пакеті vcdExtra (включаючи динамічний саме через пакет rgl ), який виступає клеєм між пакетами vcd та gnm для розширення лінійних лінійних моделей. Нещодавно він дав хороший підсумок цієї роботи під час 6-ї конференції CARME , « Успіхи у візуалізації категоричних даних за допомогою пакетів vcd, gnm та vcdExtra в R» .

Отже, EDA також може розглядатися як надання візуального пояснення даних (у тому сенсі, що воно може пояснювати несподівані зразки спостережуваних даних) до чисто підходу статистичного моделювання або паралельно йому. Тобто, EDA не тільки надає корисні способи вивчення внутрішньої структури даних, а також може допомогти уточнити та / або узагальнити статистичні моделі, застосовані до них. Це, по суті, те, що дозволяють робити біплоти , наприклад. Незважаючи на те, що вони не є багатовимірними методами аналізу як такі , вони є інструментами для візуалізації результатів багатовимірного аналізу (, даючи наближеннявзаємозв'язків при розгляді всіх осіб разом, або всіх змінних разом, або обох). Факторні бали можуть бути використані при наступному моделюванні замість вихідної метрики або для зменшення розмірності, або для забезпечення проміжних рівнів подання.

Sidenote

Я ризикую бути старомодним, я все ще час від часу використовую xlispstat( Люк Тірні ). Він має прості, але ефективні функціональні можливості для інтерактивних дисплеїв, які наразі недоступні в базовій графіці R. Мені не відомі подібні можливості в Clojure + Incanter (+ Обробка).


8

Динамічне посилання графіки є природним та ефективним для дослідницького просторового аналізу даних або ESDA . Системи ESDA, як правило, пов'язують одну або кілька кількісних карт (наприклад, карти хороплета ) з табличними поданнями та статистичною графікою базових даних. Деякі подібні можливості були частиною декількох настільних ГІС-систем протягом майже 15 років, зокрема ArcView 3 (припинений комерційний продукт). Безкоштовне програмне забезпечення GeoDa забезпечує деякі з цих можливостей в середовищі, призначеному для дослідження просторових даних та статистичного аналізу. Це незграбно, з ідіосинкратичним інтерфейсом та неполірованою графікою, але досить непоправно.

Таке використання EDA обходить заперечення, що статистичне тестування може бути кращим, ніж інтерактивне дослідження, оскільки в багатьох (більшості?) Ситуаціях немає чіткої статистичної моделі, немає очевидного (або навіть відповідного) статистичного тесту, і тестування гіпотез часто не має значення: людям потрібно бачити, що відбувається , де це відбувається , і спостерігати статистичні зв’язки між змінними в просторовому контексті. Не весь аналіз даних є або повинен навіть складатися з формальних процедур!


Привіт Вюбер. Ваш приклад ESDA - чудовий приклад, дякую! Якщо ви (або інші) можете запропонувати інші приклади, коли формальні процедури є менш актуальними - це було б найбільш корисно.
Тал Галілі

7

Для мене інтерактивна візуалізація корисна лише для мого власного дослідження або при роботі з дуже практичним клієнтом. Маючи справу з підсумковою презентацією, я вважаю за краще вибирати статичний графік, який найкраще робить мою думку. В іншому випадку клієнти можуть повністю відволіктися від фактора gee-whiz.

Найбільша користь, яку я отримую від цього, - це рівень швидкості, який звільняє мене вивчити набагато більше, ніж я мав би, якби я перестав програмувати рішення. JMP - це один з моїх улюблених інструментів для цього, оскільки він інтегрує стільки всього, що я хочу, в єдиний інтерфейс. Я думаю, що більшість людей, які є хорошими статистичними програмістами, намагаються щось на зразок JMP (або GGobi тощо) протягом занадто короткого періоду, щоб дійсно добре вийти в цьому. Зокрема, JMP створить враження, що ви це знаєте, просто переглянувши меню. Однак для розробки посібника дійсно потрібно розкрити всю його силу.

Хоча ви згадали про мою головну стурбованість щодо цього рівня швидкості: у вас абсолютно немає уявлення про те, що означають ваші р-значення. Всього за кілька хвилин ви зможете візуально вивчити сотні стосунків. Здійснення тестування гіпотез все-таки є цілком оманливим, але я бачу, що люди роблять це постійно.

Особливістю, яку мені подобається в GGobi, є її проектна гонитва, в якій ви вказуєте, який тип шаблону шукаєте у просторі з високими розмірами, а потім ви сидите спиною і спостерігаєте, як він «переслідує» цю мету. Чудові речі!


2
+1. Зауваження про фінальні презентації приводить до відома, як помітний контрприклад, знамениту розмову про TED Ханса Рослінга 2006 року ( ted.com/talks/… ). Щодо: питання про вивчення "набагато більше", мені пригадується, як адвокат у депозитації запитав мене про те, як я перевірив дані, які підтвердили мої свідчення, і як її обличчя впало, коли вона дізналася, що робота була зроблена в інтерактивному режимі і тому нічого не було надруковано та не збережено (що вона потім може винести в суд, оглянути та спробувати заперечити) ;-)
whuber

JMP - одне з найкращих програм статистики. Статистики обов'язково повинні навчитися ним користуватися, аби тільки вразити своїх клієнтів. Це дорого, але дешево, якщо ти студент чи співробітник у школі / коледжі / університеті
Ніл МакГіган
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.