Програма вибору eps та minPts для DBSCAN


14

DBSCAN є найбільш цитованим алгоритмом кластеризації відповідно до деякої літератури, і він може знайти кластери довільної форми на основі щільності. Він має два параметри eps (як радіус сусідства) та minPts (як мінімальний сусід, який вважає точку основою), і я вважаю, що це дуже залежить від них.

Чи є якийсь рутинний або поширений метод вибору цих параметрів?


Відповіді:


11

Існує маса публікацій, які пропонують методи вибору цих параметрів.

Найбільш помітним є OPTICS, варіант DBSCAN, який не усуває параметр epsilon; він створює ієрархічний результат, який приблизно можна розглядати як "працює DBSCAN з усіма можливими епсилонами".

Щодо minPts, я пропоную не покладатися на автоматичний метод, а на знання вашого домену .

Хороший алгоритм кластеризації має параметри, які дозволяють налаштувати його під свої потреби.

Параметр, який ви не помітили, - це функція відстані. Перше, що потрібно зробити для DBSCAN - це знайти хорошу дистанційну функцію для вашої програми . Не покладайтеся на те, що евклідова відстань є найкращою для кожного застосування!


Хоча користувач може вибрати функцію відстані, я сумніваюся, що це параметр.
Мехрабан

1
Звичайно, так і є. Це настільки ж параметр, скільки функція ядра для будь-якого іншого методу ядра (ви можете насправді таким чином керувати DBSCAN тривіально), і на мій досвід інші відстані, такі як Канберра або Кларк, можуть значно покращити результати .
Має QUIT - Anonymous-Mousse

Я не недооцінюю вплив функції відстані на кластеризацію, але я думаю, що це якось загально, не властиво dbscan або будь-якому іншому алгоритму кластеризації; в той час як eps і minPts явно параметри dbscan.
Мехрабан

1
Існує безліч алгоритмів, що не базуються на відстані. І якщо ви вважаєте, що minPts такі ж, як, наприклад, kдля класифікації найближчого сусіда, то ви можете сказати те саме для параметра minPts. Я здогадуюсь, головна відмінність полягає в тому, що для відстані існує "часто" розумний дефолт: евклідова відстань; тоді як для minPts значення буде специфічним для даних.
Мав QUIT - Anonymous-Mousse

1
OPTICS сама не надасть вам розділів, а кластерного порядку. Щоб отримати розділи, використовуйте витяг xi, описаний у роботі OPTICS. Перегляньте кожен документ із варіантами, щоб зрозуміти відмінності.
Мав QUIT - Anonymous-Mousse
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.