Шукаємо 2D штучні дані для демонстрації властивостей алгоритмів кластеризації

9

Я шукаю набори даних з двомірних точок даних (кожна точка даних є вектором двох значень (x, y)) за різними розподілами та формами. Код для створення таких даних також буде корисним. Я хочу використовувати їх для побудови / візуалізації ефективності роботи деяких алгоритмів кластеризації. Ось кілька прикладів:

— стефен
джерело

Я голосую за cw;)

— steffen

Аналогічне запитання щодо рядів конкретних наборів даних тут закрито: stats.stackexchange.com/questions/38928/…

— hearse

Для SPSS я написав макро-генеруючий кластер (перейдіть на мою сторінку, див. "Створення кластерів"). Однак це не створює витончених форм, таких як кільця або спіралі.

— ttnphns

11

R поставляється з великою кількістю наборів даних, і, схоже, не було б великою справою відтворити більшість прикладів, які ви цитували, за допомогою кількох рядків коду. Також вам може бути корисний пакет mlbench , зокрема синтетичні набори даних, починаючи з mlbench.*. Деякі ілюстрації наведені нижче.

введіть тут опис зображення

Ви знайдете додаткові приклади, переглянувши перегляд завдань кластера на CRAN. Наприклад, пакет fpc має вбудований генератор для кластеризованих наборів даних у формі обличчя ("обличчя" rFace).

введіть тут опис зображення

Аналогічні міркування стосуються і Python, де ви знайдете цікаві еталонні тести та набори даних для кластеризації з scikit-learn .

У сховищі машинного навчання UCI також розміщено безліч наборів даних , але вам краще самостійно моделювати дані мовою на ваш вибір.

— Хл
джерело

4

Ось кілька наборів даних, призначених саме для цього завдання:

Основний набір проблем кластеризації від Ultsch

— об
джерело

2

Цей орієнтир групування іграшок містить різні набори даних у форматі ARFF (їх можна легко перетворити на CSV), здебільшого із основними позначками правдивості. Тест повинен підтвердити основні бажані властивості алгоритмів кластеризації. Більшість наборів даних надходить з кластерних паперів, таких як:

БІРЧ - Чжан, Тянь, Рагу Рамакришнан і Мірон Лівний. "BIRCH: ефективний метод кластеризації даних для дуже великих баз даних." Запис ACM SIGMOD. Вип. 25. № 2. ОСББ, 1996.
CURE - Гуа, Sudipto, Раджив Rastogi і Kyuseok Шим. "CURE: ефективний алгоритм кластеризації для великих баз даних." Запис ACM SIGMOD. Вип. 27. № 2. ОСББ, 1998.
Хамелеон - Каріпіс, Джордж, Ей-Гон-Хан та Віпін Кумар. "Хамелеон: Ієрархічна кластеризація з використанням динамічного моделювання." Комп'ютер 32.8 (1999): 68-75.
Основний набір проблем кластеризації - Ultsch, A .: Кластеризація з SOM: U * C, в Proc. Практикум з карт самоорганізації, Париж, Франція, (2005), стор. 75-82
MOCK - Хендл, Джулія та Джошуа Ноулс. "Еволюційний підхід до багатообективного кластеризації". Еволюційні обчислення, транзакції IEEE 11.1 (2007): 56-76.
Надійна спектральна кластеризація на основі контуру - Чанг, Гонг та Діт-Ян Йен. "Надійна спектральна кластеризація на основі шляху." Розпізнавання шаблонів 41.1 (2008): 191-203.

— об. Томбарт
джерело

1

ELKI постачається з парою наборів даних (перевірте також одиничні тести, вони містять набагато більше, ніж ті, що є на веб-сайті, разом із параметрами параметрів).

Він також включає досить гнучкий генератор даних.

— Має QUIT - Аноні-Мус
джерело

1

Ось налаштований генератор кластерів. Він стосується лише певного класу наборів даних, але він, безумовно, може бути використаний для дослідження кластерних алгоритмів.

Ось приклад типу кластерів, які він може створити:

Приналежність кластеру зберігається у текстовому файлі. Код є відкритим кодом за ліцензією MIT.

— Фелікс Добслав
джерело

1

Цей скрипт Matlab генерує 2D дані для кластеризації. Він приймає кілька параметрів, так що згенеровані дані відповідають вимогам користувача.

— підроблений
джерело

0

Я не можу повірити, що ніхто не згадав дані Іриса Фішера.

Я не думаю, що я бачив методи кластеризації, які не використовують дані райдужки як приклад.

У г просто введіть "райдужка" для доступу до даних.

Ось приклад приємного (і типового) сюжету ірису: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

— генеорама
джерело