По-перше, я рекомендую почати з вибіркових даних, які надаються разом із програмним забезпеченням. Більшість розповсюджень програмного забезпечення включає приклади даних, які можна використовувати для ознайомлення з алгоритмом, не маючи стосунків з типом даних і не перебираючи дані у потрібний для алгоритму формат. Навіть якщо ви будуєте алгоритм з нуля, ви можете почати з вибірки з аналогічної реалізації та порівняти продуктивність.
По-друге, я б рекомендував експериментувати з синтетичними наборами даних, щоб відчути, як працює алгоритм, коли ви знаєте, як генеруються дані та співвідношення сигнал / шум.
У R ви можете перелічити всі дані в поточно встановлених пакетах за допомогою цієї команди:
data(package = installed.packages()[, 1])
Пакет R mlbench має реальні набори даних і може генерувати синтетичні набори даних, корисні для вивчення продуктивності алгоритму.
Python's scikit-learn має вибіркові дані та також генерує синтетичний / іграшковий набір даних.
SAS має навчальний набір даних, доступний для завантаження, і вибіркові дані SPSS встановлюються за допомогою програмного забезпечення на C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Нарешті, я б дивився на дані в дикій природі. Я порівняв би ефективність різних алгоритмів та параметрів настройки на реальних наборах даних. Зазвичай для цього потрібно набагато більше роботи, оскільки ви рідко знайдете набір даних із типами даних та структурами, які ви можете потрапити прямо у свої алгоритми.
Для даних у дикій природі я рекомендую:
Архів наборів даних reddit
Список KDnugget