Діріхле Процеси кластеризації: як поводитися з мітками?


14

Питання: Який стандартний спосіб кластеризації даних за допомогою процесу Діріхле?

При використанні Gibbs зразки кластерів з’являються і зникають під час вибірки. Крім того, у нас є проблема ідентифікації, оскільки задній розподіл є інваріантним відношенням кластерів. Таким чином, ми не можемо сказати, що це кластер користувача, а скоріше, що два користувачі знаходяться в одному кластері (тобто p(ci=cj) ).

Чи можемо ми узагальнити завдання класу так, що якщо ci є кластерним призначенням точки i , ми тепер не тільки те, що ci=cj але і ci=cj=cj=...=cz ?

Це альтернативи, які я знайшов, і чому я вважаю, що вони є неповними або неправильними.

(1) DP-GMM + відбір проб Гіббса + матриця плутанини на основі пар

Для використання моделі гарісової суміші процесів Діріхле (DP-GMM) для кластеризації я реалізував цей документ, де автори пропонують DP-GMM для оцінки щільності за допомогою вибірки Гіббса.

Щоб вивчити ефективність кластеризації, вони кажуть:

Оскільки кількість компонентів змінюється по ланцюгу [MCMC], потрібно буде сформувати матрицю плутанини, що показує частоту кожної пари даних, призначеної одному і тому ж компоненту для всієї ланцюга, див. Рис. 6. введіть тут опис зображення

Мінуси : Це не справжня "повна" кластеризація, а кластеризація в парі. Цифра виглядає так приємно, тому що ми знаємо справжні кластери і відповідно розташовуємо матрицю.

(2) DP-GMM + відбір проб Гіббса + зразок, поки нічого не зміниться

Я шукав, і знайшов деяких людей, які заявляють, що вони кластеризуються на основі Діріхле Процес, використовуючи пробовідбірник Гіббса. Наприклад, ця публікація вважає, що ланцюг зближується, коли більше немає змін ні в кількості кластерів, ні в засобах, і тому отримує звідти зведення.

Мінуси : я не впевнений, що це дозволено, якщо я не помиляюся:

  • (a) під час MCMC можуть бути перемикання міток.

  • (b) навіть у стаціонарному розподілі пробовідбірник може час від часу створювати певний кластер.

(3) DP-GMM + відбір проб Гіббса + виберіть зразок з найбільш ймовірним розділенням

У цій роботі автори кажуть:

Після періоду «вигорання» неупереджені зразки із заднього розподілу МГММ можуть бути взяті з пробовідбору Гіббса. Важке кластеризація може бути знайдена шляхом малювання багатьох таких зразків та використання вибірки з найбільшою ймовірністю спільних змінних класових показників. Ми використовуємо модифіковану реалізацію IGMM, написану М. Манделем .

Мінуси : Якщо це не пробник Гіббса, де ми вибираємо лише призначення, ми можемо обчислити але не граничне p ( c ) . (Натомість, це було б гарною практикою, аби держава не була найвищоюp(c|θ)p(c) ?)p(c,θ)

(4) DP-GMM з варіатональним висновком :

Я бачив, що деякі бібліотеки використовують варіативні умовиводи. Я не дуже знаю варіабельний висновок, але я думаю, що у вас немає проблем з ідентифікацією. Однак я хотів би дотримуватися методів MCMC (якщо це можливо).

Будь-яка довідка була б корисною.


p(c)

p(c)

це за дизайном . Насправді це виходить за межі MCMC: це вбудована особливість будь-якої байєсівської моделі. Якщо що-небудь, у вас виникає проблема, тому що ви намагаєтесь зробити щось неприродне, те, що ми одержимі робити:
забивши

Є причини, щоб не хотіти робити щось подібне в першу чергу - є різні відчуття, в яких модель суміші процесів Діріхле не може послідовно оцінити кількість кластерів (і, отже, не вдасться зробити гарну роботу з відновлення " справжнє "кластеризація даних). На цій темі нещодавно з’явився документ у NIPS.
хлопець

1
Дивіться тут . Я думаю, що вони пропонують замість цього поставити Пуассону кількість номерів (і отримати якийсь ресторанний процес для його впровадження), але я не впевнений, чи це це документ, який вони роблять.
хлопець

Відповіді:


1

cp(c,θ)p(c,θ)p(c|θ)

Причина, по якій я кажу, що ця відповідь є "орієнтовною", полягає в тому, що я не впевнений, чи позначати значення "параметром" - це лише питання семантики, або якщо є більш технічне / теоретичне визначення того, що хтось із користувачів, що займаються докторантурою тут можна було б з’ясувати.


p(c,θ)=p(c|θ)p(θ)p(c)

@alberto знову, це не має нічого спільного з цією моделлю і все, що стосується байєсівської статистики. Дивіться тут: groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219gs . А якщо вас турбує кілька режимів, перегляньте тут: groups.google.com/forum/m/#topic/stan-users/RsVo9NUn0yM і тут: stats.stackexchange.com/q/3328/36229
shadowtalker

1

Я просто хотів поділитися деякими ресурсами з цієї теми, сподіваючись, що деякі з них можуть бути корисними у відповіді на це питання. Існує багато навчальних посібників з процесів Діріхле (DP) , в тому числі з використання DP для кластеризації . Вони варіюються від "ніжних", як цей підручник з презентацією , до більш досконалих, як цей навчальний посібник . Остання є оновленою версією того ж підручника, представленого Yee Whye Teh на MLSS'07. Ви можете подивитися відео цієї розмови з синхронізованими слайдами тут . Якщо говорити про відео, ви можете подивитися ще одну цікаву та актуальну розмову зі слайдами Тома Гриффіта тут . З точки зору підручників на папері, цей підручник приємний і досить популярний.

Нарешті, я хотів би поділитися парою пов’язаних робіт. Даний документ про ієрархічну DP виглядає важливим і актуальним. Те ж стосується і цього документу Редфорда Ніла. Якщо вас цікавить моделювання тем , латентне розподілення Діріхле (LDA), швидше за все, також має бути на вашому радарі. У цьому випадку цей зовсім недавній документ представляє нове та вдосконалене підхід LDA. Що стосується тематичного моделювання домену, я б рекомендував прочитати наукові роботи Девіда Блей та його співробітників. Цей папір є вступним, решту ви можете знайти на його дослідницькій публікації. Я усвідомлюю, що деякі матеріали, які я рекомендував, можуть бути для вас занадто елементарними, але я подумав, що, включивши все, що я натрапив на цю тему, я збільшив би шанси на те, щоб знайти відповідь .


Я розумію, що ви намагаєтеся зробити тут, але це справді не стосується питання.
тіньтакер

1
@ssdecontrol: Якщо ви розумієте, що я намагаюся зробити тут (що допомагає ОП у виявленні відповіді та вивченні речі чи двох), то в чому сенс вашого коментаря? Я ніколи не стверджував, що моя відповідь - це відповідь, але висловлював сподівання, що вона корисна , що в кінцевому підсумку вирішуватиме ОП. Якщо у вас є краща відповідь, я впевнений, що це буде оцінено ОП та громадою.
Олександр Блех

1
Так, я цілком розумію. Це дуже багато того, що я роблю і тут. Але питання полягає у питанні про правильний спосіб вибору міток кластерів з результатів MCMC, і я не думаю, що це питання взагалі вирішує це питання.
shadowtalker

@AleksandrBlekh Я погодився би з ssdecontrol, що це трохи поза темою, оскільки ОП, здається, знає "основи" і задає конкретне питання.
Тім

1
@AleksandrBlekh Я ціную ваш допис, принаймні, це хороший підсумок для ознайомлення з DP. Я знаю основи (середній рівень, скажімо), але, принаймні, ваші посилання змусили мене повернутися до LDA і зрозуміти, що вони на пальцях навколо проблеми, оскільки їх мітки часто не змінюються.
Альберто
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.