Оптимальна кількість компонентів у гауссовій суміші


10

Отже, отримання «уявлення» про оптимальну кількість кластерів у k-засобах добре зафіксовано. Я знайшов статтю про це в гауссових сумішах, але не впевнений, що я переконаний у цьому, не дуже добре це розумію. Чи існує ... ніжніший спосіб зробити це?


4
Чи можете ви цитувати статтю чи принаймні окреслити запропоновану ним методологію? Важко придумати "ніжніший" спосіб зробити це, якщо ми не знаємо базової лінії :)
jbowman

1
Джефф Маклахлан та інші написали книги про розподіл сумішей. Я впевнений, що вони включають підходи до визначення кількості компонентів у суміші. Ви, мабуть, могли там заглянути. Я погоджуюся з jbowman, що позбавлення від вашої плутанини найкраще було б досягти, якщо ви вкажете нам, в чому ви плутаєтеся.
Майкл Р. Черник

Оптимальна оцінка кількості гауссових сумішей, заснованих на збільшенні k-засобів для ідентифікації спікера .... Це його назва, його можна безкоштовно завантажити. В основному збільшується кількість кластерів на 1, поки ви не побачите, що два кластери стають залежними один від одного, щось подібне. Дякую!
JEquihua

Чому б просто не вибрати кількість компонентів, що максимально оцінює ймовірність перехресної перевірки? Це обчислювально дорого, але перехресну перевірку важко перемогти у більшості випадків для вибору моделі, якщо тільки не існує великої кількості параметрів, які потрібно налаштувати.
Дікран Марсупіал

Чи можете ви трохи пояснити, що таке перехресна перевірка ймовірності? Я не знаю про цю концепцію. Дякую.
JEquihua

Відповіді:


5

Просто деяке розширення до коментаря Дікрана Марсупіала (перехресне підтвердження). Основна ідея полягає в тому, щоб поділити свої дані на навчальні та перевірочні набори якимось чином, спробувати різну кількість компонентів і вибрати найкращий на основі відповідних значень вірогідності навчання та перевірки.

Ймовірність отримання GMM справедлива p(х|π,мк,Σ)=КπкN(х|мкк,Σк) за визначенням, де К - кількість компонентів (кластерів) і π,мк,Σ- параметри моделі. Змінюючи значенняК ви можете побудувати схему ймовірності GMM для наборів для тренувань та валідації, як описано нижче.

введіть тут опис зображення

У цьому прикладі повинно бути очевидним, що оптимальна кількість компонентів становить близько 20. Є приємне відео про це на Coursera, і саме тут я отримав вищезгадану картину.


Інший широко використовуваний метод - байєсівський критерій інформації (BIC) :

БЯС=-2журнал(L)+Кжурнал(н)
де L - ймовірність, K кількість параметрів і нкількість точок даних. Це можна зрозуміти як додавання штрафу за кількість параметрів до ймовірності журналу.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.