Однією з поширених проблем в науці даних є збір даних з різних джерел у якось очищеному (напівструктурованому) форматі та поєднання метрик з різних джерел для аналізу вищого рівня. Переглядаючи зусилля інших людей, особливо інші питання на цьому сайті, виявляється, що багато людей у цій галузі виконують дещо повторювану роботу. Наприклад, аналіз твітів, публікацій у facebook, статей у Вікіпедії тощо є частиною багатьох великих проблем з даними.
Деякі з цих наборів даних доступні за допомогою загальнодоступних API, наданих сайтом постачальника, але зазвичай в цих API відсутні якісь цінні відомості або показники, і кожен повинен робити один і той же аналіз знову і знову. Наприклад, хоча кластеризація користувачів може залежати від різних випадків використання та вибору функцій, але базове кластеризація користувачів Twitter / Facebook може бути корисним у багатьох програмах Big Data, які не надаються API або публічно доступні в незалежних наборах даних .
Чи є який-небудь індекс або загальнодоступний хостинг набору даних, що містить цінні набори даних, які можна використовувати повторно для вирішення інших великих проблем з даними? Я маю на увазі щось на зразок GitHub (або групу сайтів / публічних наборів даних або хоча б вичерпний список) для науки про дані. Якщо ні, то які причини не мають такої платформи для наукових даних? Комерційна цінність даних, потрібно часто оновлювати набори даних, ...? Чи не можемо ми мати модель з відкритим кодом для спільного використання наборів даних, розроблених для науковців?