Шукаємо 2D штучні дані для демонстрації властивостей алгоритмів кластеризації


9

Я шукаю набори даних з двомірних точок даних (кожна точка даних є вектором двох значень (x, y)) за різними розподілами та формами. Код для створення таких даних також буде корисним. Я хочу використовувати їх для побудови / візуалізації ефективності роботи деяких алгоритмів кластеризації. Ось кілька прикладів:


Я голосую за cw;)
steffen

Аналогічне запитання щодо рядів конкретних наборів даних тут закрито: stats.stackexchange.com/questions/38928/…
hearse

Для SPSS я написав макро-генеруючий кластер (перейдіть на мою сторінку, див. "Створення кластерів"). Однак це не створює витончених форм, таких як кільця або спіралі.
ttnphns

Відповіді:


11

R поставляється з великою кількістю наборів даних, і, схоже, не було б великою справою відтворити більшість прикладів, які ви цитували, за допомогою кількох рядків коду. Також вам може бути корисний пакет mlbench , зокрема синтетичні набори даних, починаючи з mlbench.*. Деякі ілюстрації наведені нижче.

введіть тут опис зображення

Ви знайдете додаткові приклади, переглянувши перегляд завдань кластера на CRAN. Наприклад, пакет fpc має вбудований генератор для кластеризованих наборів даних у формі обличчя ("обличчя" rFace).

введіть тут опис зображення

Аналогічні міркування стосуються і Python, де ви знайдете цікаві еталонні тести та набори даних для кластеризації з scikit-learn .

У сховищі машинного навчання UCI також розміщено безліч наборів даних , але вам краще самостійно моделювати дані мовою на ваш вибір.



2

Цей орієнтир групування іграшок містить різні набори даних у форматі ARFF (їх можна легко перетворити на CSV), здебільшого із основними позначками правдивості. Тест повинен підтвердити основні бажані властивості алгоритмів кластеризації. Більшість наборів даних надходить з кластерних паперів, таких як:

  • БІРЧ - Чжан, Тянь, Рагу Рамакришнан і Мірон Лівний. "BIRCH: ефективний метод кластеризації даних для дуже великих баз даних." Запис ACM SIGMOD. Вип. 25. № 2. ОСББ, 1996.
  • CURE - Гуа, Sudipto, Раджив Rastogi і Kyuseok Шим. "CURE: ефективний алгоритм кластеризації для великих баз даних." Запис ACM SIGMOD. Вип. 27. № 2. ОСББ, 1998.
  • Хамелеон - Каріпіс, Джордж, Ей-Гон-Хан та Віпін Кумар. "Хамелеон: Ієрархічна кластеризація з використанням динамічного моделювання." Комп'ютер 32.8 (1999): 68-75.
  • Основний набір проблем кластеризації - Ultsch, A .: Кластеризація з SOM: U * C, в Proc. Практикум з карт самоорганізації, Париж, Франція, (2005), стор. 75-82
  • MOCK - Хендл, Джулія та Джошуа Ноулс. "Еволюційний підхід до багатообективного кластеризації". Еволюційні обчислення, транзакції IEEE 11.1 (2007): 56-76.
  • Надійна спектральна кластеризація на основі контуру - Чанг, Гонг та Діт-Ян Йен. "Надійна спектральна кластеризація на основі шляху." Розпізнавання шаблонів 41.1 (2008): 191-203.

дані про каріпис дані клатозу


1

ELKI постачається з парою наборів даних (перевірте також одиничні тести, вони містять набагато більше, ніж ті, що є на веб-сайті, разом із параметрами параметрів).

Він також включає досить гнучкий генератор даних.


1

Ось налаштований генератор кластерів. Він стосується лише певного класу наборів даних, але він, безумовно, може бути використаний для дослідження кластерних алгоритмів.

Ось приклад типу кластерів, які він може створити:

http://i.stack.imgur.com/vrCG5.png

Приналежність кластеру зберігається у текстовому файлі. Код є відкритим кодом за ліцензією MIT.


1

Цей скрипт Matlab генерує 2D дані для кластеризації. Він приймає кілька параметрів, так що згенеровані дані відповідають вимогам користувача.


0

Я не можу повірити, що ніхто не згадав дані Іриса Фішера.

Я не думаю, що я бачив методи кластеризації, які не використовують дані райдужки як приклад.

У г просто введіть "райдужка" для доступу до даних.

Ось приклад приємного (і типового) сюжету ірису: http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.