У мене є алгоритм кластеризації (не k-означає) з вхідним параметром (кількість кластерів). Після виконання кластеризації я хотів би отримати деякий кількісний показник якості цього кластеризації. Алгоритм кластеризації має одну важливу властивість. Для якщо я подаю точок даних без будь-якої суттєвої різниці між ними до цього алгоритму, я отримаю один кластер, що містить точки даних і один кластер з точкою даних. Очевидно, це не те, чого я хочу. Тому я хочу обчислити цю міру якості, щоб оцінити обґрунтованість цієї кластеризації. В ідеалі я зможу порівняти ці заходи для різних . Тому я запустити кластеризацію в діапазоні kі виберіть той, який найкращої якості. Як обчислити таку міру якості?
ОНОВЛЕННЯ:
Ось приклад, коли є поганою групуванням. Скажімо, на площині, що утворює рівносторонній трикутник, є 3 точки. Розбиття цих точок на 2 кластери, очевидно, гірше, ніж розділення їх на 1 або 3 кластери.