Загальнодоступні набори даних

167

Однією з поширених проблем в науці даних є збір даних з різних джерел у якось очищеному (напівструктурованому) форматі та поєднання метрик з різних джерел для аналізу вищого рівня. Переглядаючи зусилля інших людей, особливо інші питання на цьому сайті, виявляється, що багато людей у цій галузі виконують дещо повторювану роботу. Наприклад, аналіз твітів, публікацій у facebook, статей у Вікіпедії тощо є частиною багатьох великих проблем з даними.

Деякі з цих наборів даних доступні за допомогою загальнодоступних API, наданих сайтом постачальника, але зазвичай в цих API відсутні якісь цінні відомості або показники, і кожен повинен робити один і той же аналіз знову і знову. Наприклад, хоча кластеризація користувачів може залежати від різних випадків використання та вибору функцій, але базове кластеризація користувачів Twitter / Facebook може бути корисним у багатьох програмах Big Data, які не надаються API або публічно доступні в незалежних наборах даних .

Чи є який-небудь індекс або загальнодоступний хостинг набору даних, що містить цінні набори даних, які можна використовувати повторно для вирішення інших великих проблем з даними? Я маю на увазі щось на зразок GitHub (або групу сайтів / публічних наборів даних або хоча б вичерпний список) для науки про дані. Якщо ні, то які причини не мають такої платформи для наукових даних? Комерційна цінність даних, потрібно часто оновлювати набори даних, ...? Чи не можемо ми мати модель з відкритим кодом для спільного використання наборів даних, розроблених для науковців?

open-source dataset

— Амір Алі Акбарі
джерело

18

Це питання може бути більш підходящим для спеціалізованих opendata.SE . Тим НЕ менше, я перетинаю свої пальці для Дат , який прагне стати «Git для даних».

— ojdo

2

@ojdo Спасибі, я ніколи не чув про opendata.SE раніше, я також знайшов там це цікаве (і дуже схоже) питання.

— Амір Алі Акбарі

2

Дивіться quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Пьотр Мігдал

Я не знайшов хороших безкоштовних комплексних наборів даних для типових програм Business Intelligence. Microsoft Contoso BI Demo Dataset для роздрібної торгівлі від офіційної завантаження Майкрософт Центр завантаження працює з деякими продуктами Microsoft (див AndyGett на SharePoint і інший Business Software ), але я не бачу ніякого простого SQL або CSV дампи нього, ні будь - яку інформацію про ліцензії .

— nealmcb

1

Ви приєдналися до Open Exchange Stack Exchange? opendata.stackexchange.com

— sss4r

87

Насправді існує дуже розумний перелік загальнодоступних наборів даних, підтримуваних різними підприємствами / джерелами.

Деякі з них нижче:

Публічні набори даних на веб-сервісах Amazon ;
Сховище впровадження майнінгу частого набору елементів ;
Сховище машинного навчання UCI ;
KDnuggets - великий список безлічі публічних сховищ.

Тепер два міркування щодо вашого питання. Перший, що стосується політики обміну базами даних. З особистого досвіду існують деякі бази даних, які не можуть бути оприлюднені, як із залученням обмежень щодо конфіденційності (як щодо деяких відомостей у соціальних мережах), так і з приводу державної інформації (наприклад, бази даних системи охорони здоров’я).

Ще один момент стосується використання / застосування набору даних. Хоча деякі бази можна переробити відповідно до потреб програми, було б чудово організувати гарну організацію наборів даних за призначенням. Систематика повинна включати в себе аналіз соціальних графів, НІЯКІ гарантії видобутку, класифікацію, а також безліч інших областей дослідження може бути.

— рубенів
джерело

64

Оновлення:

Kaggle.com , будинок сучасних любителів наукових даних та машинного навчання :), відкрив власне сховище наборів даних .

Крім перерахованих джерел.

Деякі набори даних у соціальній мережі:

Є багато джерел, перелічених у статистиці SE:

— об. IharS
джерело

37

Існує багато відкритих доступних наборів даних, один багато людей часто не помічає даних data.gov . Як уже згадувалося, Freebase чудово, тому всі приклади розміщені @Rubens

— MCP_infiltrator
джерело

35

Freebase - це безкоштовна база даних, керована спільнотою, яка охоплює багато цікавих тем і містить близько 2,5 мільярдів фактів у машиночитаному форматі. Також є гарний API для виконання запитів даних.

Ось ще один складений список відкритих наборів даних: http://www.datapure.co/open-data-sets

— Саліхов Костянтин Васильович
джерело

Freebase закривається, і її база даних незабаром перейде до Wikidata .

— cynddl

31

Наступні посилання доступні

— Jakubee
джерело

25

Зокрема, для даних про часові ряди, Quandl є прекрасним ресурсом - каталог, що легко переглядається (здебільшого) чистими часовими рядами.

Однією з найкрутіших їх особливостей є ціни на акції з відкритими даними - тобто фінансові дані, які можна редагувати у вікі-стилі та не обтяжуватись ліцензуванням.

— аза-базу
джерело

20

Enigma - це сховище загальнодоступних наборів даних. Його безкоштовний план пропонує пошук публічних даних з 10-ти розрядними API дзвінками на місяць. Перераховані не всі публічні бази даних, але їх вистачає для загальних випадків.

Я використовував це для академічних досліджень, і це заощадило мені багато часу.

Ще одне цікаве джерело даних - проект @unitedstates , що містить дані та інструменти для їх збору, про Сполучені Штати (члени Конгресу, географічні фігури…).

— cynddl
джерело

18

Я хотів би вказати на Відкритий перепис даних . Це ініціатива Фонду «Відкриті знання», заснована на внесках захисників відкритих даних та експертів у всьому світі.

Цінність перепису відкритих даних - це відкриті, керовані спільнотою та систематичні зусилля для збору та оновлення бази даних відкритих наборів даних у всьому світі, а в деяких випадках, як США, на рівні міста .

Крім того, це дає можливість порівняти різні країни та міста у вибраних областях, що цікавлять.

— tomaskazemekas
джерело

18

Також є ще один ресурс, який надає The Guardian, британський Daily на своєму веб-сайті. У всіх наборах даних, опублікованих The Guardian Datablog, розміщені всі. Набори даних, пов’язані з обліковими записами клубів Прем'єр-ліги футболу, деталями інфляції та ВВП Великобританії, даними про нагороди Греммі тощо. Набори даних доступні на

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Ще трохи ресурсів. Деякі набори даних у форматі R або існують R-коди для прямого імпорту даних до Р.

http://www.inside-r.org/howto/finding-data-internet

— бінга
джерело

17

Користувацький пошук Google

Ви можете використовувати користувацький пошук Google для наборів даних:

Google Custom Search: набори даних

Він включає 230 джерел і мета-джерел наборів даних, включаючи всі згадані в цьому питанні. Будь ласка, не соромтесь виключати з результатів .gov та будь-які інші веб-сайти, додаючи в пошуковий рядок "-.gov" або "-site.com". Інші пошукові оператори Google працюють.

Не соромтеся зв’язатися зі мною, якщо у вас є ідеї, які веб-сайти додати.

IOGDS

Наступна служба класифікує понад 1 000 000 публічних наборів даних:

IOGDS: Міжнародний пошук набору даних про відкритий уряд

— Антон Тарасенко
джерело

Які параметри для наданого вами користувацького посилання пошуку? Чи проводиться пошук у списку веб-сайтів, ключових слів тощо?

— Амір Алі Акбарі

@AmirAliAkbari Він здійснює пошук таких джерел, як Data.gov, Quandl та інші основні сховища даних.

— Антон Тарасенко

16

Пізня відповідь, але ось еклектичний список 100+ цікавих наборів даних

Повідомлення в блозі весело і легко читати (у мене немає приналежності). Варто переглядати і вискоблювати кілька зверху:

Останні слова кожного ув'язненого в Техасі, страченого з 1984 року
10 000 анотованих зображень котів
2,2 мільйона шахових матчів

— філшем
джерело

15

Я знайшов це посилання в Data Science Central зі списком безкоштовних наборів даних: Великі набори даних доступні безкоштовно

— лафдез
джерело

15

Чи знали ви про тести PUMA та завантаження набору даних? https://sites.google.com/site/farazahmad/pumadatasets

Він включає наступне:

TeraSort
Вікіпедія
Елемент списку
Самостійне приєднання
Список суміжності
Фільми-бази даних
Індекс з інвертованим рангом

— альгареку
джерело

15

Уряд Великої Британії забезпечує чудове джерело неперсональних даних, зібраних у всіх урядових відомствах: http://data.gov.uk

— Федерер
джерело

14

Я новачок на цьому форумі. Зізвучавшись із цим питанням пізно. Я підтримую (я є співзасновником) каталогу загальнодоступних порталів даних. Зараз перелічено та охоплюють понад 1000 порталів на міжнародному, федеральному, державному, муніципальному та академічному рівнях по всьому світу.

http://www.opengeocode.org/opendata/

— Ендрю - OpenGeoCode
джерело

14

Я здивований, що ніхто не згадував про це, як це здається досить очевидним: http://www.kaggle.com постійно має нові та дуже цікаві набори даних. Інформація вважається перевагою, тому часто компанії не хочуть оприлюднювати ці дані (плюс проблеми конфіденційності). Kaggle надає вам дані, і вони сподіваються, що ви вирішите проблеми бізнесу в обмін.

— ОЗП
джерело

14

Набори даних

Академічні торенти
Квора
hadoopilluminated.com
data.gov
Куандль
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Завантажені бази даних GeoLite
Відповідь великих наборів даних Quora
Громадські набори великих даних
Портал даних Х'юстона
Змінити джерела даних
Глибокий каталог генетичної варіації людини
База даних спільноти відомих людей, місць та речей
Загальнодоступні дані Google
Дані Світового банку
Дані NYC таксі
Відкриті дані Філлі З'єднання людей з даними для Філадельфії
Мережевий сховище Інтерактивне сховище даних із понад 600 мережами у 20+ колекціях; з масштабних соціальних мереж, веб-графіків, біологічних мереж, комунікаційних та технологічних мереж тощо.
Список корисних джерел Публікація в блозі містить безліч баз даних

Набори даних від awesome-datascience

— chenrui333
джерело

1

Чи можете ви надати нам інформацію про обидва набори даних / посилання? Це дійсно полегшить тягар тих, хто шукає конкретні типи даних. Перегляньте інші публікації, щоб побачити, якої інформації відсутні ваші посилання.

— Рубенс

11

Як ви вже згадували, API - це важка частина, а не дані. Куандль, схоже, вирішує цю проблему, надаючи понад 10 мільйонів загальнодоступних наборів даних під одним простим, RESTful API. Якщо програмування не є вашим сильним костюмом, є безкоштовний інструмент для полегшення завантаження даних у Excel. Крім того, якщо ви робите насолоджуватися програмування, є кілька нативні бібліотеки R, Python, Java і багато іншого .

— Брайан-ризик
джерело

11

Щоб додати до списку, який можливо не закінчується:

як згадує cyndd, є Вікідата ,

а для курованих структурованих знань - Вольфрам Альфа .

— image_doctor
джерело

11

Я натрапив на цю колекцію на Github. Колекція також категоризована.

https://github.com/caesar0301/awesome-public-datasets

І щодо частини стосовно

Чи не може модель з відкритим кодом для обміну наборами даних, розроблена для науковців даних?

ви можете ознайомитися з посібником групи Leek для обміну даними

— Шагун Содхані
джерело

10

Не всі урядові дані вказані на data.gov - Фонд Sunlight ще у лютому склав набір електронних таблиць, що описують набори доступних даних.

— Стів Каллестад
джерело

9

Ще одне джерело даних, яке я не бачив у переліку, - це проект GDELT . З сайту:

Проект GDELT відстежує світові трансляції, друк та веб-новини майже з усіх куточків кожної країни більш ніж 100 мовами та визначає людей, локації, організації, підрахунки, теми, джерела та події, що рухають наше глобальне суспільство щосекунди кожного дня, створення безкоштовної відкритої платформи для обчислень у всьому світі.

— dvdnglnd
джерело

8

У цьому підпорядкуванні перелічено безліч відомих наборів даних

Набори даних Reddit

На цей підреєстратор є багато запитів до набору даних, на деякі з них відповіли.

— Якийсь хлопець
джерело

6

Я створив для цього github repo. Набори даних не є великими, але це мінімальні приклади, призначені для практики та дослідження методів прогнозування моделювання, які потім можуть бути розширені до великих наборів даних.

Біблія проблем машинного навчання (MLPB)

Класна / унікальна річ цього репо - це те, що кожна проблема позначена тегами, як [багатокласний], [незбалансовані дані], [регресія] тощо, що полегшує пошук певних типів проблем / наборів даних.

— Бен
джерело

6

Eurostats http://ec.europa.eu/eurostat і Європейський центральний банк https://www.ecb.europa.eu/stats/html/index.en.html забезпечує велику різноманітність наборів даних , які я використовую досить часто в моєму робочі проекти.

— Джуха
джерело

6

Крім усіх цих наборів даних, якщо вас цікавлять дані, пов'язані з Індією. Офіційно офіційний сайт уряду Індії

https://data.gov.in/

Він надає набори даних з різних департаментів індійського уряду, які можуть бути добре використані для аналізу великих даних та машинного навчання.

— Гаурав
джерело

4

Yahoo щойно випустив величезний набір даних для дослідницької спільноти. Насолоджуйся!

— Касра Маншаї
джерело

4

Просто ми завантажуємо пакет MASS в R, ми отримуємо доступ до декількох фреймів даних або наборів даних.

install.packages ("MASS") вимагають ("MASS")

— dileep balineni
джерело

3

3 набори даних з https://www.jc-bingo.com/about

visitor-interest.csv Сукупні інтереси відвідувачів, складені на основі 1-тижневих журналів доступу до Інтернету. Включає IP-адресу відвідувача, рядок агента користувача, країну відвідувача, мови доступу та теми на сторінках. 19 926 записів, 2,9 Мб.
user-agent.csv Реальні користувацькі агенти відвідувачів упорядковані за популярністю. 4 826 записів, 716 Kb.
bots.csv IP-адреси робота та рядки користувацького агента, витягнуті з журналів веб-доступу. 1,293 записів, 122 Kb.

— Юрій
джерело

3

Очевидно, існує великий набір публічних баз даних.

Ще не згадується - з ФАО (Продовольчої та сільськогосподарської організації ООН), доступний за адресою:

http://www.fao.org/faostat/

Він містить дані про виробництво продуктів харчування для країн світу.

— сетемплер
джерело