алгоритм кластеризації невимірних даних


12

У мене є набір даних тисяч точок і засіб вимірювання відстані між будь-якими двома точками, але точки даних не мають розмірності. Я хочу, щоб алгоритм знаходив центри кластерів у цьому наборі даних. я уявляю, що оскільки дані не мають розмірів, центр кластера може складатися з декількох точок даних і допуску, а членство в кластері може визначатися середнім значенням відстані точки даних до кожної точки даних у центрі кластера.

пробачте, будь ласка, якщо це питання має добре відоме рішення, я дуже мало знаю про подібну проблему! моє (дуже обмежене) дослідження виявило лише алгоритми кластеризації розмірних даних, але я заздалегідь вибачаюся, якщо пропустив щось очевидне.

Дякую!


Чому невимірність робить цю проблему особливою?
Рафаель

1
Деякі алгоритми, які я бачив для кластеризації (насправді просто k-засобів), вимагають генерування випадкових точок даних у вигляді насіння, що неможливо з безрозмірними даними. Отже, особлива вимога полягає в тому, що центри кластерів повинні бути представлені набором існуючих точок даних (можливо, зваженим).
paintcan

Відповіді:


15

kkkk

k

Обидві ці проблеми загалом є важкими для NP і їх важко наблизити до довільного чинника. Зауважте, що якщо ви скасуєте умову бути показником, речі стають набагато гіршими з точки зору наближеності.

k

Зрештою, як і у більшості проблем кластеризації, ваш остаточний вибір залежить від програми, розміру ваших даних тощо.


3
Дякуємо за швидкий та чіткий огляд. Мені знадобиться хоча б кілька днів, щоб визначити, чи відповіли ви на моє запитання. Здається, мені є чому навчитися, перш ніж я достатньо зрозумію свою проблему :)
paintcan

5

Існує також кореляційна кластеризація , яка містить вхідну інформацію для кожної пари елементів, що вказує, належать вони або до одного кластеру, або до різних кластерів.


так, це ще один хороший приклад. І звичайно Уоррен є експертом у цьому! Я не знаю, чи був вхід ОП +/-, чи може бути перетворений через порогове значення. якщо так, то це, безумовно, життєздатний варіант.
Суреш Венкат

5

Якщо ви просто шукаєте хороші емпіричні показники, алгоритм поширення афінності зазвичай працює краще, ніж k-медіани. Код доступний на декількох мовах, а публікації, що описують алгоритм більш детально, тут: http://www.psi.toronto.edu/index.php?q=affinity%20propagation

is(i,ci)

scicis(i,i)


5

Здається, ваше запитання означає, що ви шукаєте алгоритм з гідним обчислювальним часом. Враховуючи розмір вершин (або точок), було б створити зважене графічне представлення ваших даних і використовувати кластерний алгоритм Маркова (MCL) для кластеризації графіка.

http://www.micans.org/mcl/

MCL заснований на випадкових прогулянках по зваженим та невагомим графікам для пошуку щільних підграфів. Він здатний обробляти великі графіки і був використаний у багатьох відомих, добре використовуваних біоінформаційних програмах (таких як BLAST). -Бучер


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.