Щодо аналізу кошиків, я вважаю, що головна мета - індивідуалізувати найчастіші комбінації продуктів, які купують покупці. Тут association rules
представлено найбільш природну методологію (адже вони були фактично розроблені для цієї мети). Аналіз комбінацій продуктів, придбаних покупцями, і кількість разів, коли ці комбінації повторюються, призводить до правила типу "якщо умова, то результат" з відповідним вимірюванням цікавості. Ви також можете розглянути Log-linear models
можливість дослідження зв'язків між розглянутими змінними.
Що ж стосується кластеризації, ось деякі відомості, які можуть стати в нагоді:
Спочатку розглянемо Variable clustering
. Змінна кластеризація використовується для оцінки колінеарності, надмірності та для поділу змінних на кластери, які можна оцінити як єдину змінну, що призводить до зменшення даних. Шукайте varclus
функцію (пакет Hmisc в R)
Оцінка стійкості кластерної функції: функція clusterboot
{R пакет fpc}
Статистика на основі відстані для перевірки кластера: функція cluster.stats
{R пакет fpc}
Як згадувало mbq, використовуйте ширину силуету для оцінки найкращої кількості кластерів. Слідкуйте за цим . Щодо ширини силуету, див. Також функцію optsil .
Оцініть кількість кластерів у наборі даних за допомогою статистики розриву
Для обчислення показників несхожості та заходів відстані див. Dsvdis та vegdist
Алгоритм кластеризації EM може вирішити, скільки кластерів створити за допомогою перехресної перевірки (якщо ви не можете вказати apriori, скільки кластерів генерувати). Хоча алгоритм ЕМ гарантовано збігається до максимуму, це локальний максимум і не обов'язково може бути таким же, як глобальний максимум. Для кращого шансу отримати глобальний максимум, всю процедуру слід повторити кілька разів, з різними початковими здогадами щодо значень параметрів. Загальний показник вірогідності журналу може бути використаний для порівняння отриманих різних кінцевих конфігурацій: просто виберіть найбільшу з локальних максимумів . Ви можете знайти реалізацію EM кластеру у відкритому проекті WEKA
Це також цікаве посилання.
Також шукати тут дляFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Нарешті, ви можете вивчити результати кластеризації за допомогою clusterfly