Дозвольте мені, не заходячи далеко, щоб просто скопіювати і вставити список опцій з моєї власної функції !kmini
(макрос для SPSS), знайдені в колекції «кластер» тут .
Метод створення або вибору початкових центрів кластерів. Виберіть:
- RGC - центроїди випадкових підпробовід . Дані розподіляються випадковим чином за допомогою
k
неоновного збігу, за членством, групами та центроїдами цих груп, призначеними для початкових центрів. Таким чином, обчислюються центри, не обрані з існуючих випадків набору даних. Цей метод дає центри, що знаходяться близько один до одного і до загального центроїда даних.
- RP - випадковим чином обрані точки .
k
окремі випадки даних випадковим чином вибираються для початкових центрів.
- RUNFP -
найдальші точки (запущений вибір). Спочатку
k
випадки приймаються як центри, а потім під час пробігу через решту випадків набору даних прогресивно проводяться заміни серед центрів; мета заміщення - отримати в кінцевих k
точках, найбільш віддалених одна від одної у змінному просторі. Ці точки (випадки), що займають периферійні положення в хмарі даних, є утвореними початковими центрами. (Метод використовується як за замовчуванням у SPSS k-означає процедуру QUICK CLUSTER
. Детальну інформацію див. У алгоритмах SPSS. Див. Також описані тут ).
- SIMFP - найдальші точки (простий вибір). Перший центр вибирається як випадковий випадок із набору даних. 2-й центр обраний як випадок, максимально віддалений від цього центру. 3-й центр обраний як випадок, максимально віддалений від цих двох (від найближчого до двох), - і так далі.
- KMPP - випадкові найдальші точки, або k-означає ++. Перший центр вибирається як випадковий випадок із набору даних. 2-й центр вибирається також випадковим чином, але ймовірність вибору випадку пропорційна відстані (квадратний евклідовий) його до цього (1-го) центру. Третій центр вибирається також випадковим чином з ймовірністю вибору, пропорційним відстані справи до найближчого з цих двох центрів, - і так далі. (Артур Д., Васильвіцький, С .. К-означає ++: переваги ретельного висіву насіння. // Праці 18-го щорічного симпозіуму ACM-SIAM про дискретні алгоритми. 2007., 1027–1035.)
- GREP - представницькі пункти групи . Ідея методу - збирати як центри
k
більшість представницьких, «депутатських» справ. 1-й центр приймається за випадок, що є найближчим до загальних даних ценроїди. Тоді решта центрів вибираються з точок даних таким чином, що кожна точка розглядається на те, чи вона ближче (і на скільки, з точки зору квадратної евклідової відстані) до набору точок, ніж кожен з останніх - до будь-якого з уже існуючих центрів. Тобто кожен бал розглядається як кандидат, який представляє певну групу балів, ще недостатньо добре представлену вже зібраними центрами. Точка, найбільш репрезентативна в цьому відношенні, обрана як наступний центр. (Kaufman, L. Rousseeuw, PJ. Пошук груп даних: вступ до кластерного аналізу. 1990. Див. Також: Pena, JM et al. Емпіричне порівняння чотирьох методів ініціалізації алгоритму K-засобів // Розпізнавання шаблонів Lett. 20 (10), 1999 р.,
- [Існує також приємний метод, ще не реалізований мною в макросі, щоб генерувати
k
точки, які є від випадкової рівномірної, але "менш випадкової, ніж випадкової", десь між випадковим і жадібним; див. потенційну теоретичну основу для цього методу]
- Ще один метод - це зробити ієрархічну кластеризацію методом Уорда. Ви можете зробити це на підпробірі об'єктів, якщо зразок занадто великий. Тоді засоби
k
кластерів, що виробляються, є початковим насінням для k-засобів процедури. Уорд є кращим перед іншими ієрархічними методами кластеризації, оскільки він поділяє загальну цільову мету з k-засобами.
Методи RGC, RP, SIMFP, KMPP залежать від випадкових чисел і можуть змінити їх результат від запуску до запуску.
Метод RUNFP може бути чутливим до порядку порядку в наборі даних; але методу GREP немає (крім випадків, коли в даних є багато однакових випадків, зв'язків). Метод GREP може не зібрати всі k
центри, якщо k
велика відносна кількість випадків у даних ( n
), особливо коли k>n/2
. [Макрос інформує, якщо дані не дозволяють цьому методу збирати k
центри]. Метод GREP є найповільнішим, він обчислює [в моєму виконанні] матрицю відстаней між усіма справами, тому він не підходить, якщо випадків багато десятків тисяч або мільйонів. Однак ви можете це зробити на випадковій підпробірі даних.
Я зараз не обговорюю, який метод "кращий" і за яких обставин, тому що до цього часу я не робив широкого імітаційного зондування цього питання. Мої дуже попередні та поверхневі враження полягали в тому, що GREP особливо вартий (але він дорогий), і що якщо ви хочете по-справжньому дешевий метод все ще досить конкурентоспроможний, то просто випадкові k очки, RP, - гідний вибір.