Загальнодоступні набори даних


167

Однією з поширених проблем в науці даних є збір даних з різних джерел у якось очищеному (напівструктурованому) форматі та поєднання метрик з різних джерел для аналізу вищого рівня. Переглядаючи зусилля інших людей, особливо інші питання на цьому сайті, виявляється, що багато людей у ​​цій галузі виконують дещо повторювану роботу. Наприклад, аналіз твітів, публікацій у facebook, статей у Вікіпедії тощо є частиною багатьох великих проблем з даними.

Деякі з цих наборів даних доступні за допомогою загальнодоступних API, наданих сайтом постачальника, але зазвичай в цих API відсутні якісь цінні відомості або показники, і кожен повинен робити один і той же аналіз знову і знову. Наприклад, хоча кластеризація користувачів може залежати від різних випадків використання та вибору функцій, але базове кластеризація користувачів Twitter / Facebook може бути корисним у багатьох програмах Big Data, які не надаються API або публічно доступні в незалежних наборах даних .

Чи є який-небудь індекс або загальнодоступний хостинг набору даних, що містить цінні набори даних, які можна використовувати повторно для вирішення інших великих проблем з даними? Я маю на увазі щось на зразок GitHub (або групу сайтів / публічних наборів даних або хоча б вичерпний список) для науки про дані. Якщо ні, то які причини не мають такої платформи для наукових даних? Комерційна цінність даних, потрібно часто оновлювати набори даних, ...? Чи не можемо ми мати модель з відкритим кодом для спільного використання наборів даних, розроблених для науковців?


18
Це питання може бути більш підходящим для спеціалізованих opendata.SE . Тим НЕ менше, я перетинаю свої пальці для Дат , який прагне стати «Git для даних».
ojdo

2
@ojdo Спасибі, я ніколи не чув про opendata.SE раніше, я також знайшов там це цікаве (і дуже схоже) питання.
Амір Алі Акбарі


Я не знайшов хороших безкоштовних комплексних наборів даних для типових програм Business Intelligence. Microsoft Contoso BI Demo Dataset для роздрібної торгівлі від офіційної завантаження Майкрософт Центр завантаження працює з деякими продуктами Microsoft (див AndyGett на SharePoint і інший Business Software ), але я не бачу ніякого простого SQL або CSV дампи нього, ні будь - яку інформацію про ліцензії .
nealmcb

1
Ви приєдналися до Open Exchange Stack Exchange? opendata.stackexchange.com
sss4r

Відповіді:


87

Насправді існує дуже розумний перелік загальнодоступних наборів даних, підтримуваних різними підприємствами / джерелами.

Деякі з них нижче:

Тепер два міркування щодо вашого питання. Перший, що стосується політики обміну базами даних. З особистого досвіду існують деякі бази даних, які не можуть бути оприлюднені, як із залученням обмежень щодо конфіденційності (як щодо деяких відомостей у соціальних мережах), так і з приводу державної інформації (наприклад, бази даних системи охорони здоров’я).

Ще один момент стосується використання / застосування набору даних. Хоча деякі бази можна переробити відповідно до потреб програми, було б чудово організувати гарну організацію наборів даних за призначенням. Систематика повинна включати в себе аналіз соціальних графів, НІЯКІ гарантії видобутку, класифікацію, а також безліч інших областей дослідження може бути.


64

37

Існує багато відкритих доступних наборів даних, один багато людей часто не помічає даних data.gov . Як уже згадувалося, Freebase чудово, тому всі приклади розміщені @Rubens


35

Freebase - це безкоштовна база даних, керована спільнотою, яка охоплює багато цікавих тем і містить близько 2,5 мільярдів фактів у машиночитаному форматі. Також є гарний API для виконання запитів даних.

Ось ще один складений список відкритих наборів даних: http://www.datapure.co/open-data-sets


Freebase закривається, і її база даних незабаром перейде до Wikidata .
cynddl


25

Зокрема, для даних про часові ряди, Quandl є прекрасним ресурсом - каталог, що легко переглядається (здебільшого) чистими часовими рядами.

Однією з найкрутіших їх особливостей є ціни на акції з відкритими даними - тобто фінансові дані, які можна редагувати у вікі-стилі та не обтяжуватись ліцензуванням.


20

Enigma - це сховище загальнодоступних наборів даних. Його безкоштовний план пропонує пошук публічних даних з 10-ти розрядними API дзвінками на місяць. Перераховані не всі публічні бази даних, але їх вистачає для загальних випадків.

Я використовував це для академічних досліджень, і це заощадило мені багато часу.


Ще одне цікаве джерело даних - проект @unitedstates , що містить дані та інструменти для їх збору, про Сполучені Штати (члени Конгресу, географічні фігури…).


18

Я хотів би вказати на Відкритий перепис даних . Це ініціатива Фонду «Відкриті знання», заснована на внесках захисників відкритих даних та експертів у всьому світі.

Цінність перепису відкритих даних - це відкриті, керовані спільнотою та систематичні зусилля для збору та оновлення бази даних відкритих наборів даних у всьому світі, а в деяких випадках, як США, на рівні міста .

Крім того, це дає можливість порівняти різні країни та міста у вибраних областях, що цікавлять.


18

Також є ще один ресурс, який надає The Guardian, британський Daily на своєму веб-сайті. У всіх наборах даних, опублікованих The Guardian Datablog, розміщені всі. Набори даних, пов’язані з обліковими записами клубів Прем'єр-ліги футболу, деталями інфляції та ВВП Великобританії, даними про нагороди Греммі тощо. Набори даних доступні на

Ще трохи ресурсів. Деякі набори даних у форматі R або існують R-коди для прямого імпорту даних до Р.


17

Користувацький пошук Google

Ви можете використовувати користувацький пошук Google для наборів даних:

Google Custom Search: набори даних

Він включає 230 джерел і мета-джерел наборів даних, включаючи всі згадані в цьому питанні. Будь ласка, не соромтесь виключати з результатів .gov та будь-які інші веб-сайти, додаючи в пошуковий рядок "-.gov" або "-site.com". Інші пошукові оператори Google працюють.

Не соромтеся зв’язатися зі мною, якщо у вас є ідеї, які веб-сайти додати.

IOGDS

Наступна служба класифікує понад 1 000 000 публічних наборів даних:

IOGDS: Міжнародний пошук набору даних про відкритий уряд


Які параметри для наданого вами користувацького посилання пошуку? Чи проводиться пошук у списку веб-сайтів, ключових слів тощо?
Амір Алі Акбарі

@AmirAliAkbari Він здійснює пошук таких джерел, як Data.gov, Quandl та інші основні сховища даних.
Антон Тарасенко

16

Пізня відповідь, але ось еклектичний список 100+ цікавих наборів даних

Повідомлення в блозі весело і легко читати (у мене немає приналежності). Варто переглядати і вискоблювати кілька зверху:

  • Останні слова кожного ув'язненого в Техасі, страченого з 1984 року

  • 10 000 анотованих зображень котів

  • 2,2 мільйона шахових матчів



15

Чи знали ви про тести PUMA та завантаження набору даних? https://sites.google.com/site/farazahmad/pumadatasets

Він включає наступне:

  1. TeraSort
  2. Вікіпедія
  3. Елемент списку
  4. Самостійне приєднання
  5. Список суміжності
  6. Фільми-бази даних
  7. Індекс з інвертованим рангом

15

Уряд Великої Британії забезпечує чудове джерело неперсональних даних, зібраних у всіх урядових відомствах: http://data.gov.uk


14

Я новачок на цьому форумі. Зізвучавшись із цим питанням пізно. Я підтримую (я є співзасновником) каталогу загальнодоступних порталів даних. Зараз перелічено та охоплюють понад 1000 порталів на міжнародному, федеральному, державному, муніципальному та академічному рівнях по всьому світу.

http://www.opengeocode.org/opendata/


14

Я здивований, що ніхто не згадував про це, як це здається досить очевидним: http://www.kaggle.com постійно має нові та дуже цікаві набори даних. Інформація вважається перевагою, тому часто компанії не хочуть оприлюднювати ці дані (плюс проблеми конфіденційності). Kaggle надає вам дані, і вони сподіваються, що ви вирішите проблеми бізнесу в обмін.


14

1
Чи можете ви надати нам інформацію про обидва набори даних / посилання? Це дійсно полегшить тягар тих, хто шукає конкретні типи даних. Перегляньте інші публікації, щоб побачити, якої інформації відсутні ваші посилання.
Рубенс

11

Як ви вже згадували, API - це важка частина, а не дані. Куандль, схоже, вирішує цю проблему, надаючи понад 10 мільйонів загальнодоступних наборів даних під одним простим, RESTful API. Якщо програмування не є вашим сильним костюмом, є безкоштовний інструмент для полегшення завантаження даних у Excel. Крім того, якщо ви робите насолоджуватися програмування, є кілька нативні бібліотеки R, Python, Java і багато іншого .



11

Я натрапив на цю колекцію на Github. Колекція також категоризована.

https://github.com/caesar0301/awesome-public-datasets

І щодо частини стосовно

Чи не може модель з відкритим кодом для обміну наборами даних, розроблена для науковців даних?

ви можете ознайомитися з посібником групи Leek для обміну даними



9

Ще одне джерело даних, яке я не бачив у переліку, - це проект GDELT . З сайту:

Проект GDELT відстежує світові трансляції, друк та веб-новини майже з усіх куточків кожної країни більш ніж 100 мовами та визначає людей, локації, організації, підрахунки, теми, джерела та події, що рухають наше глобальне суспільство щосекунди кожного дня, створення безкоштовної відкритої платформи для обчислень у всьому світі.



6

Я створив для цього github repo. Набори даних не є великими, але це мінімальні приклади, призначені для практики та дослідження методів прогнозування моделювання, які потім можуть бути розширені до великих наборів даних.

Біблія проблем машинного навчання (MLPB)

Класна / унікальна річ цього репо - це те, що кожна проблема позначена тегами, як [багатокласний], [незбалансовані дані], [регресія] тощо, що полегшує пошук певних типів проблем / наборів даних.



6

Крім усіх цих наборів даних, якщо вас цікавлять дані, пов'язані з Індією. Офіційно офіційний сайт уряду Індії

Він надає набори даних з різних департаментів індійського уряду, які можуть бути добре використані для аналізу великих даних та машинного навчання.



4

Просто ми завантажуємо пакет MASS в R, ми отримуємо доступ до декількох фреймів даних або наборів даних.

install.packages ("MASS") вимагають ("MASS")


3

3 набори даних з https://www.jc-bingo.com/about

  • visitor-interest.csv Сукупні інтереси відвідувачів, складені на основі 1-тижневих журналів доступу до Інтернету. Включає IP-адресу відвідувача, рядок агента користувача, країну відвідувача, мови доступу та теми на сторінках. 19 926 записів, 2,9 Мб.
  • user-agent.csv Реальні користувацькі агенти відвідувачів упорядковані за популярністю. 4 826 записів, 716 Kb.
  • bots.csv IP-адреси робота та рядки користувацького агента, витягнуті з журналів веб-доступу. 1,293 записів, 122 Kb.

3

Очевидно, існує великий набір публічних баз даних.

Ще не згадується - з ФАО (Продовольчої та сільськогосподарської організації ООН), доступний за адресою:

http://www.fao.org/faostat/

Він містить дані про виробництво продуктів харчування для країн світу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.