Розміщення вільно доступних зразків даних


98

Я працював над новим методом аналізу та аналізу наборів даних для ідентифікації та ізоляції підгруп населення без попереднього усвідомлення особливостей будь-якої підгрупи. Хоча метод досить добре працює зі штучними зразками даних (тобто наборами даних, створеними спеціально для ідентифікації та сегрегації підмножини населення), я хотів би спробувати протестувати його з живими даними.

Що я шукаю - це вільно доступне (тобто неконфіденційне, невласне) джерело даних. Переважно такий, який містить бімодальні або мультимодальні розподіли або, очевидно, складається з декількох підмножин, які не можуть бути легко роз'єднані традиційними способами. Куди мені піти, щоб знайти таку інформацію?



4
Можливо, вам сподобається getthedata.org на сайті із питаннями та відповідями, присвяченими пошуку наборів даних
Jeromy Anglim,

Відповіді:



46

Наступний список містить багато наборів даних, які можуть вас зацікавити:



17

Всесвітній банк пропонує досить багато цікавих даних і останнім часом дуже активно розробляє приємні API для нього.

Крім того, комунальний проект має цікавий список.

Для даних щодо охорони здоров’я США завідувач складів показників здоров'я .

У блозі Даніеля Леміра вказується декілька цікавих прикладів (здебільшого з урахуванням досліджень БД), включаючи канадський перепис 1880 р. Та конспекти хмарних звітів .

Що стосується сьогодні (03.04.2012), записи для переписів населення США 1940 року також доступні для завантаження.


2
Всесвітній банк проходить додаткову милю з відкритими даними та картами для Stata та R.
о.


11

MLComp має досить багато цікавих наборів даних, і як бонус ваш алгоритм отримає рейтинг, якщо ви завантажите його.


10

Хорошим місцем для пошуку є бібліотека даних і історій університету Карнегі Меллона або DASL , яка містить файли даних, які "ілюструють використання основних методів статистики ... Хороший приклад може зробити урок про певний метод статистики яскравим і релевантним. DASL є покликаний допомогти вчителям знаходити та визначати файли даних для викладання. Ми сподіваємось, що DASL також буде служити архівом для наборів даних зі статистичної літератури ".


9

Почніть R і введіть data(). Це покаже всі набори даних на шляху пошуку. Багато додаткових наборів даних доступні в додаткових пакетах. Наприклад, у AERпакеті є кілька цікавих наборів даних із реальних соціальних наук .




5

Зараз у мережі Stack Exchange з'явився новий сайт Open Data (у бета-версії станом на 5 березня 2015 року), присвячений даним. Він описує себе як:

Open Data Stack Exchange - це сайт із запитаннями та відповідями для розробників та дослідників, зацікавлених у відкритих даних. Він побудований та керований вами як частина мережі Stack Exchange сайтів Q&A. З вашою допомогою ми працюємо разом, щоб створити бібліотеку детальних відповідей на кожне питання щодо відкритих даних.

"Відкриті дані" відносяться до наборів даних, які "є у вільному доступі для використання та повторної публікації за своїм бажанням, без обмежень авторських прав, патентів чи інших механізмів контролю" ( Вікіпедія ). Однак сайт здається придатним для запитів на закриті набори даних .



3

Додавання пари до списку:

  • Багато глибоких фінансових даних про публічно торгувані компанії, що проходять багато десятиліть: http://www.mergent.com/servius

  • Багата інформація про 16+ мільйонів підприємств у США: http://compass.webservius.com

Обидва доступні через API REST та мають безкоштовні пробні плани.






2

Пошук відповідного набору даних для моїх потреб я щойно наткнувся на два сайти, які стосуються цієї дискусії.

Datacite.org, який описує себе як ...

Ми - міжнародна організація, яка прагне:

  • встановити більш простий доступ до даних досліджень
  • збільшити прийняття даних досліджень як законний внесок у науковий запис та до
  • підтримка архівації даних, щоб дозволити перевірку результатів та переназначення для подальшого вивчення.

DataBib.org, який описує себе як ...

Databib - це інструмент, який допомагає людям ідентифікувати та знаходити онлайн-сховища даних досліджень. Користувачі та бібліографи створюють та впорядковують записи, що описують сховища даних, які користувачі можуть шукати.

Думав, що варто було б додати його до цього списку для інших.

Тепер, щоб знайти щось у його посиланнях, що відповідає моїм потребам!


2

Я настійно рекомендую перевірити quandl.com . Це мрія програмістів даних. Він надає один дуже простий API для доступу до будь-якого з понад 10 мільйонів різних наборів даних. Ви шукаєте бімодальні або багатоваріантні дані, тому я б запропонував перевірити різні набори даних про населення, наприклад, ця таблиця населення світу містить підскладові країни та території, які входять до загальної кількості.


1
Деякі дані quandl безкоштовні, деякі "Premium", тобто коштують $$. Також моя мрія про API включає в себе nrowls часового ряду, ncols та онлайн-сюжети (я хочу поні).
denis


1

Використання з часом

Дуже велика електронна таблиця Excel, доступна для завантаження, що містить точки даних про всі онлайн-дії, з демографікою користувачів з часом. Будь ласка, прочитайте підказковий лист (нижче) перед завантаженням або використанням цієї електронної таблиці.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.