Відстань між двома гауссовими сумішами для оцінки кластерних рішень


11

Я запускаю швидке моделювання для порівняння різних методів кластеризації, і в даний час натиснув на корч, намагаючись оцінити кластерні рішення.

Я знаю різні показники перевірки (багато з них знайдені у cluster.stats () в R), але я припускаю, що їх найкраще використовувати, якщо орієнтовна кількість кластерів насправді дорівнює дійсній кількості кластерів. Я хочу зберегти можливість вимірювати ефективність кластерного рішення, коли він не вказує правильну кількість кластерів у початковому моделюванні (тобто, наскільки добре дані моделі трьох кластерних рішень, змодельовані на 4-кластер рішення). Тільки для вашої інформації кластери моделюються з однаковими матрицями коваріації.

Я вважав, що розбіжність KL між двома сумішами Гаусса буде корисною для реалізації, але не існує рішення закритої форми ( Hershey та Olson (2007) ), а реалізація моделювання Монте-Карло починає обчислюватись дорого.

Чи є якісь інші рішення, які можуть бути легко реалізувати (навіть якщо це лише наближення)?


Відстань L2 між двома гауссовими сумішами доступна у закритому вигляді. Використовуйте це, і вам слід все налаштувати.

Я не знаю, як би ви це зробили, але це не здається мені гарною ідеєю. Візьміть суміш, перестановіть компоненти (без зміни p (x)) і відстань L2 може бути чим завгодно. Крім того, відстань L2 не є хорошою ідеєю для матриць коваріації.
bayerj

Задня передбачувальна ймовірність проведеного тестового набору даних. Я підозрюю, що вам знадобляться пріори по k.
вигадки

Перша посилання розірвана
ttnphns

Відповіді:


6

Припустимо, у нас є дві гауссові суміші в Rг :

П=i=1нαiПi=i=1нαiN(мкi,Σi)Q=j=1мβjQj=j=1мN(мj,Sj).
Назвіть їх густиниp() іq() відповідно і позначте щільність їх компонентівПi ,Qj черезpi(х)=N(х;мкi,Σi) ,qj(х)=N(х;мj,Sj) .

У закритому вигляді доступні такі відстані:

  • L2 відстань, як це запропоновано у коментарі користувача39665. Це:

    L2(П,Q)2=(p(х)-q(х))2гх=(iαipi(х)-jβjqj(х))2гх=i,i'αiαi'pi(х)pi'(х)гх+j,j'βjβj'qj(х)qj'(х)гх-2i,jαiβjpi(х)qj(х)гх.
    Зауважимо, що, як видно, наприклад, у розділі 8.1.8матричної кулінарної книги:
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    тому це можна легко оцінити за часO(mn).

  • Максимальна середня розбіжність (MMD) з ядром Gaussian RBF. Це крута відстань, ще не надто відома серед статистичної спільноти, яка потребує трохи математики для визначення.

    Нехай

    к(х,у): =досвід(-12σ2х-у2),
    визначимо гільбертовому просторіНяк відтворює ядром Гільберта просторувідповідногок:к(х,у)=φ(х),φ(у)Н.

    Визначимо середню карту ядро як

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    Тоді MMD - це

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    Для наших сумішей P і Q зауважимо, що

    К(П,Q)=i,jαiβjК(Пi,Qj)
    і аналогічно для К(П,П) і К(Q,Q) .

    Виявляється, використовуючи аналогічні трюки, що і для L2 , що К(N(мк,Σ),N(мк',Σ')) є

    (2πσ2)г/2N(мк;мк',Σ+Σ'+σ2Я).

    Оскільки σ0 , це чітко сходиться до кратного відстані L2 . Як правило, ви хочете використовувати інше σ , однак, масштаб варіації даних.

    Закриті форми також доступні для поліномних ядер к в MMD; подивитися

    Muandet, Fukumizu, Dinuzzo, Schölkopf (2012). Навчання з дистрибуцій за допомогою апаратів вимірювання підтримки. Вдосконалення систем нейронної обробки інформації ( офіційна версія ). arXiv: 1202.6504 .

    Про багато приємних властивостей цієї відстані див

    Sriperumbudur, Gretton, Fukumizu, Schölkopf, Lanckriet (2010). Гільбертові просторові вбудовування та метрики щодо імовірнісних заходів. Журнал досліджень машинного навчання, 11, 1517–1561 . arXiv: 0907.5309 .

  • Квадратична розбіжність Йенсена-Рені. Ентропія Rényi- α визначається як

    Нα(p)=11-αжурнал(p(х)αгх).
    Його межа якα1- ентропія Шеннона. Дивергенція Йенсена-Рені -
    JRα(p,q)=Нα(p+q2)-Нα(p)+Нα(q)2
    деp+q2 позначає рівну суміш міжpіq. Виявляється, що колиα=2і колиПіQє гауссовими сумішами (як тут), можна обчислити закриту форму дляJR2. Це зробив о

    Ван, Саєда-Махмуд, Вемурі, Беймер і Рангараджан (2009). Закрита форма розбіжності Jensen-Renyi для суміші гасівців та додатків до реєстрації групової форми. Med Image Comput Assistance Interv., 12 (1), 648–655. ( безкоштовна опублікована версія )


0

Якщо ваші кластери насправді не є гауссовими сумішами, а довільної форми, результати можуть бути насправді набагато кращими, коли ви створюєте набагато більше кластерів, а потім знову об'єднуйте їх.

У багатьох випадках просто вибирається k довільно високим, наприклад 1000 для великого набору даних; зокрема, коли вас не дуже цікавлять моделі, а просто потрібно зменшити складність набору даних за допомогою векторного квантування.


Я імітував кластери, що витягуються із суміші Гаусса, тому вважаю, що моє припущення справедливе. Метою тут є не зменшити складність або придумати критерій рішення для вибору k, а порівняти, наскільки добре кластери k моделюють дані, коли k насправді невірно. Деякі неправильні варіанти можуть моделювати дані краще, ніж інші, і я намагаюся кількісно оцінити цю ступінь невідповідності (як, наприклад, дивергенція KL, але простіше реалізувати для гауссових сумішей).
dmartin

0

Ось узагальнення Mahalanobis D до GMMs методом Fisher Kernel та іншими методами:

Майкл Е. "Виведення аналітичних дистанційних функцій кластера з моделей суміші Гаусса". (1999): 815-820. https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf

Дивіться також: Чи існує багатогауссівська версія відстані махаланобіса?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.