По-перше, застереження. У кластеризації часто немає жодної "правильної відповіді" - одна кластеризація може бути кращою за іншу за одним метрикою, а зворотний може бути істинним, використовуючи інший показник. І в деяких ситуаціях два різних кластеризації можуть бути однаково вірогідними за однією метрикою.
Сказавши це, ви, можливо, захочете ознайомитись з процесами Діріхле . Також дивіться цей підручник .
Якщо ви починаєте з моделі Гауссової суміші, у вас є та сама проблема, що і з k-засобами - що вам потрібно вибрати кількість кластерів. Ви можете використовувати моделі доказів, але це не буде надійним у цьому випадку. Таким чином, фокус полягає у використанні процесу Dirichlet перед компонентами суміші, який потім дозволяє мати потенційно нескінченну кількість компонентів суміші, але модель (як правило) автоматично знайде "правильну" кількість компонентів (під припущеннями модель).
Зауважте, що вам досі потрібно вказати параметр концентрації процесу Діріхле. Для малих значень зразки з ДП, ймовірно, складаються з невеликої кількості атомних заходів з великою вагою. При великих значеннях більшість зразків, ймовірно, будуть виразними (концентрованими). Ви можете використовувати гіпер-пріоритет за параметром концентрації, а потім вивести його значення з даних, і цей гіпер-пріор може бути відповідним розпливчастим, щоб дозволити багато різних можливих значень. Однак, отримавши достатньо даних, параметр концентрації перестане бути таким важливим, і цей гіперпрем може бути знижений.ααα