Набори даних для прикладів візуалізації даних, викладання та дослідження


9

Я шукаю наявні набори даних, які ми можемо використовувати для тестування декількох методів дослідження даних, які ми досліджуємо.

Я знаю кілька ресурсів, таких як включені до R (спробуйте plot(Orange)чи дивіться тут ).

Але я хотів би зробити це на крок вперед:

  • Які найкращі набори даних у реальному світі для тестування інструмента візуалізації?
  • Які набори даних ви використовували в наукових працях або викладанні слайдів про datavis?
  • Який найкращий приклад із реального світу, щоб показати переваги графіки?

2
Багато добрих прикладів із реального світу, де деякі пов'язані проекти надають набори даних (але, на жаль, більшість не :)
WSkid

1
Ви прямо шукаєте безкоштовні набори даних?
Фоміт

3
Візуалізація залежить від контексту та аудиторії (серед іншого), що дозволяє припустити, що "найкраще" є неоднозначним у цьому контексті. Ви можете отримати більш цілеспрямовані відповідні відповіді, вказавши, які «методики» ви досліджуєте.
whuber

1
@whuber Методи про автоматизацію візуалізації. Найкраще, для пояснення. Найкраще, для орієнтиру.
robermorales

@EpiGrad Так, максимально безкоштовно.
robermorales

Відповіді:


5

В Інтернеті є велика кількість баз даних. Залежно від теми, ви можете отримати різні джерела.

Наприклад, у предметній області людського розвитку ви можете мати джерела даних за адресою (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Для спостереження за зміною клімату існує веб з даними про клімат високої роздільної здатності за адресою (http://www.ipcc-data.org/), наприклад:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Обидва приклади містять реальні дані, використовувані в опублікованих наукових працях, з великою кількістю даних. Дані, пов'язані з часом та / або простором. Можливості візуалізації цих даних нескінченні.


який із можливих наборів даних із цих чудових джерел вам найбільше подобається? спасибі
robermorales

1
Це залежить від придатності до «смаку» візуалізації. Наприклад, для дослідження / показу часових рядів веб-сайтів МГЕЗК має достатньо даних і широко використовується (очевидно, для аналізу змін клімату), для показу просторових даних веб-сайт людського розвитку містить безліч космічних даних, а також даних, пов'язаних з час.
Жозе Зубкофф

Ваше перше посилання розірвано (помилка DNS).
horaceT

На жаль, перша посилання розірвана (через 5 років), але там багато відкритих даних: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Хосе Zubcoff

9

Мені подобається використовувати набори даних Anscombe (також доступні в R), щоб показати важливість побудови графіків при регресії. Якщо ви не знайомі, ви отримуєте однакову лінію регресії та діагностику з усіх чотирьох наборів даних, навіть якщо самі набори виглядають зовсім інакше. Ви можете взяти сюжети нижче та перетворити їх на залишкові ділянки, щоб проілюструвати проблеми, які ви можете шукати у залишках після проведення регресії.

Набори даних Anscombe


Так, ми знали ці набори даних. Це хороша відправна точка.
robermorales

Основна проблема полягає в тому, що це не реальний набір даних.
robermorales

3
@robermorales, Досить справедливо, але я вважаю, що бачачи "чисту" версію проблеми, це полегшує розуміння месіє, візуалізації / проблем у реальному світі.
Чарлі

6

який найкращий приклад із реального світу, щоб показати переваги графіки?

Будь-який великий стіл. Наприклад, зображення Google в "офіційній таблиці перепису". Ви побачите такі речі, як наведена нижче .

Також подивіться на Gelman et al. (2002) Практикуємо те, що ми проповідуємо: перетворення таблиць у графіки. Американський статистик 56: 121-130

величезний складний стіл


хороша порада! Ми не знаємо посилання.
robermorales

4

У Вільяма С. Клівленда є дві книги, які мають велике використання графіки, а дані та код для створення графіків у програмі Візуалізація даних є на його веб-сайті


який із наборів даних від Клівленда вам більше подобається? спасибі
robermorales

1
@robertomorales Я думаю, що їх усі вдало обрали для своїх цілей. Усі, хто цікавиться статистичною графікою, повинні уважно вивчити Клівленд.
Пітер Флом

1
Дані для візуалізації даних можна знайти на lib.stat.cmu.edu/datasets/visualizing.data.zip Я більше не можу їх знайти на власному веб-сайті Клівленда.
Нік Кокс

4

Можливо, ви вже знаєте про них, але ось вони все одно:

UCI Machine Learning інструменту для репозиції у має безліч загальнодоступних, реальні наборів даних.

Уряд США оприлюднює багато своїх наборів даних на сайті data.gov .

Якщо ви хочете отримати деякі складні дані візуалізації, я б запропонував переглянути завдання щодо класифікації. Мені здається, що Сумка слів, встановлена ​​на UCI MLR, має деякі приємні властивості, але я можу помилитися (пройшов деякий час, оскільки я ним користувався).


Дякую! Є багато !
robermorales

3

Ось кілька.

Зразки наборів даних для інструмента Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Зразки наборів даних, які постачаються в комплекті з інструментом Sci2.

Набори вибіркових даних Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Зразки наборів даних для початку роботи з Tableau.

Дивовижні набори загальнодоступних даних
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Цей список загальнодоступних джерел даних збирається та прибирається з блогів, відповідей та відповідей користувачів. Більшість наборів даних безкоштовні, деякі - ні.

Цей потік досить старий, сподіваючись, що цей бум отримає нові внески!


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.