Я хотів би зазначити, оскільки це один з найпопулярніших звернень Google до цієї теми, що латентне розподілення Діріхле (LDA), ієрархічні процеси Діріхле (HDP) та ієрархічне приховане розподілення Діріхле (hLDA) - це всі чіткі моделі.
LDA моделює документи як диріхлетові суміші фіксованої кількості тем, вибраних користувачем як параметр моделі, які, у свою чергу, є сумішами слов диріхле. Це породжує рівне, м'яке ймовірнісне кластеризація термінів у теми та документи у теми.
HDP моделює теми як суміші слів, подібно до LDA, але замість того, що документи є сумішами фіксованої кількості тем, кількість тем генерується процесом діріхле, в результаті чого кількість тем також є випадковою змінною. "Ієрархічна" частина назви стосується іншого рівня, який додається до генеративної моделі (процес диріхлету, що створює кількість тем), а не самі теми - теми все ще є плоскими кластеризаціями.
hLDA, з іншого боку, - це адаптація LDA, яка моделює теми як суміші нового, чіткого рівня тем, що випливає з дирихлетових розподіліва не процеси. Він все ще розглядає кількість тем як гіперпараметр, тобто незалежно від даних. Різниця полягає в тому, що кластеризація зараз є ієрархічною - вона засвоює кластеризацію першої групи тем, надаючи більш загальні, абстрактні зв’язки між темами (а значить, словами та документами). Подумайте про це, як кластеризацію обміну стеками на математику, науку, програмування, історію тощо, на відміну від кластеризації даних про дані та перехресну валідацію в абстрактну тему статистики та програмування, яка ділиться деякими поняттями з, скажімо, інженерії програмного забезпечення, але інженерія програм обмін кластеризується на більш конкретному рівні з обміном інформатики, і схожість між усіма згаданими біржами виявляється не так сильно, поки верхній шар кластерів.