Де я можу знайти набори даних корисні для тестування власних реалізацій машинного навчання? [зачинено]

Зараз я намагаюся самостійно реалізувати деякі алгоритми машинного навчання. Багато хто з них має противною властивістю бути важкою налагодження, деякі помилки не спричиняють збоїв у програмі, а працюють не за призначенням і здаються, що алгоритми дають слабкі результати.

Мені б хотілося певним чином збільшити мою впевненість у впровадженні, наприклад, якби у мене були невеликі набори даних, з додатковою інформацією "Алгоритми X працювали на ітераціях Y та мали результати Z на цьому наборі даних", це було б дуже корисно. Хтось чув про такі набори даних?

dataset

— sjm.majewski
джерело

Які дослідження ви провели, досліджуючи це питання? Спочатку червоніє, можна подумати, що література, яку ви використовуєте для пошуку цих алгоритмів, буде заповнена зразками наборів даних.

— whuber

Ну, я знаю ML здебільшого з курсу університету, Coursea, лекційних відео в Інтернеті та декількох робіт, які я прочитав на певні теми. Я знаю, що скрізь є безліч зразків наборів даних, але я шукаю деякі з інформацією про те, як різні алгоритми ML виконувались на них, щоб я міг перевірити власні реалізації.

— sjm.majewski

Нещодавно в ICML з'явився хороший документ про проблему зі стандартизованими наборами даних - що це заважає думати надто важко про проблеми з реальним світом та безладдя, пов'язане з проблемами реального світу. Особисто, коли я почав використовувати дані в реальному світі, моя майстерність як практикуючого зацвіла. Тож, хоча я не заважаю вам використовувати такі речі, як UCI, як трамплін або тестування, слідкуйте за призом!

— Патрік Калдон

Ви повинні вказати, яким типом машинного навчання займаєтесь. Набори даних двійкових класифікацій відрізняються від наборів даних наближення функції (регресії).

— Дуглас Заре

stackoverflow.com/questions/3272806/…

— Абхішек Гупта

Відповіді:

З сховища машинного навчання UC Irvine :

В даний час ми підтримуємо 223 набори даних як послугу спільноті машинного навчання. Ви можете переглянути всі набори даних через наш пошуковий інтерфейс. Наш старий веб-сайт все ще доступний для тих, хто вважає за краще старий формат. ... Якщо Ви бажаєте надати набір даних, будь ласка, зверніться до нашої політики щодо пожертвувань. ... Ми також створили дзеркальний сайт для сховища.

Також широко використовуються та вивчаються такі набори даних MIAS :

Під час порівняльного аналізу алгоритму рекомендується використовувати стандартну базу даних тестів (набір даних), щоб дослідники могли безпосередньо порівнювати результати. Більшість мамографічних баз даних не є загальнодоступними. Бази даних, що найчастіше отримують доступ, і, отже, найбільш часто використовувані бази даних - це база даних Mammographic Image Analysis Society (MIAS) та Цифрова база даних для скринінгової мамографії (DDSM). Крім того, наразі мало проектів, що розробляють нові бази даних мамографічних зображень, а також кілька старих проектів.

— deepML
джерело

+1 Якщо ви продовжуєте знаходити більше джерел, не соромтесь доповнити цю відповідь.

— whuber

Репозиторій UCI, згаданий Башаром, мабуть, найбільший, проте я хотів додати пару менших колекцій, на які я потрапив:

Набори даних з бібліотеки Mulan Java
Набори даних з автонової лабораторії Школи комп’ютерних наук університету Карнегі Меллона
Набори даних, що використовуються в Книжкових елементах статистичного навчання
Кілька наборів даних із змагань Кубка KDD
Набори даних на кафедрі статистики Мюнхенського університету

— sebp
джерело