Латентний розподіл Діріхле проти ієрархічного процесу Діріхле


49

Латентне розподілення Діріхле (LDA) та ієрархічний процес Діріхле (HDP) - це процеси моделювання тем. Основна відмінність полягає в тому, що LDA вимагає уточнення кількості тем, а HDP - ні. Чому це так? І які відмінності, плюси та мінуси обох методів моделювання теми?


Чи повинен HDP керуватися даними щодо кількості тем, які він вибере? З практичної сторони я намагався запустити реалізацію HDP Blei, і він просто з'їв усю пам'ять, поки я не вбив процес. У мене є 16 Гб оперативної пам’яті і трохи більше 100 К коротких документів для аналізу.
Владислав Довгалець

Відповіді:


35

HDP - це розширення LDA, розроблене для вирішення випадку, коли кількість компонентів суміші (кількість "тем" у термінах моделювання документа) не апріорі відома. Тож це причина, чому є різниця.

Використовуючи LDA для моделювання документів, кожен розглядає кожну «тему» ​​як розподіл слів у відомій лексиці. Для кожного документа суміш тем складається з розподілу Діріхле, і тоді кожне слово в документі є незалежним малюнком із цієї суміші (тобто вибір теми, а потім її використання для створення слова).

Для HDP (застосовується для моделювання документів) також використовується процес Діріхле, щоб визначити невизначеність у кількості тем. Таким чином, вибирається загальний базовий розподіл, який представляє незмінно нескінченний набір можливих тем для корпусу, а потім кінцевий розподіл тем для кожного документа відбирається з цього базового розподілу.

Щодо плюсів і мінусів, HDP має перевагу в тому, що максимальна кількість тем може бути необмеженою та дізнаватися з даних, а не заздалегідь задаватися. Я вважаю, що хоч це складніше втілення та непотрібне у випадку, коли обмежена кількість тем є прийнятною.


22

Анекдотично, я ніколи не був вражений результатами з ієрархічної LDA. Просто не здається знайти оптимальний рівень деталізації для вибору кількості тем. Я отримав набагато кращі результати, виконавши кілька ітерацій звичайного LDA, вручну перевіряючи створені теми, вирішуючи, чи збільшувати чи зменшувати кількість тем, і продовжувати ітерацію, поки не отримаю детальності, яку шукаю.

Пам'ятайте: ієрархічний LDA не може прочитати вашу думку ... він не знає, для чого ви насправді маєте намір використовувати тематичне моделювання. Так само, як і при кластеризації k-означає, ви повинні вибрати k, який має найбільш сенс для вашого випадку використання.


16

Я хотів би зазначити, оскільки це один з найпопулярніших звернень Google до цієї теми, що латентне розподілення Діріхле (LDA), ієрархічні процеси Діріхле (HDP) та ієрархічне приховане розподілення Діріхле (hLDA) - це всі чіткі моделі.

LDA моделює документи як диріхлетові суміші фіксованої кількості тем, вибраних користувачем як параметр моделі, які, у свою чергу, є сумішами слов диріхле. Це породжує рівне, м'яке ймовірнісне кластеризація термінів у теми та документи у теми.

HDP моделює теми як суміші слів, подібно до LDA, але замість того, що документи є сумішами фіксованої кількості тем, кількість тем генерується процесом діріхле, в результаті чого кількість тем також є випадковою змінною. "Ієрархічна" частина назви стосується іншого рівня, який додається до генеративної моделі (процес диріхлету, що створює кількість тем), а не самі теми - теми все ще є плоскими кластеризаціями.

hLDA, з іншого боку, - це адаптація LDA, яка моделює теми як суміші нового, чіткого рівня тем, що випливає з дирихлетових розподіліва не процеси. Він все ще розглядає кількість тем як гіперпараметр, тобто незалежно від даних. Різниця полягає в тому, що кластеризація зараз є ієрархічною - вона засвоює кластеризацію першої групи тем, надаючи більш загальні, абстрактні зв’язки між темами (а значить, словами та документами). Подумайте про це, як кластеризацію обміну стеками на математику, науку, програмування, історію тощо, на відміну від кластеризації даних про дані та перехресну валідацію в абстрактну тему статистики та програмування, яка ділиться деякими поняттями з, скажімо, інженерії програмного забезпечення, але інженерія програм обмін кластеризується на більш конкретному рівні з обміном інформатики, і схожість між усіма згаданими біржами виявляється не так сильно, поки верхній шар кластерів.


0

У мене ситуація, коли HDP працює добре в порівнянні з LDA. У мене є близько 16000 документів, які належать до різних класів. Оскільки я не знаю, скільки різних тем я можу зібрати для кожного класу, HDP дуже корисний у цьому випадку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.