Що сприяє альфа- та бета-гіперпараметрам при розподілі прихованого диріхле?

19

LDA має два гіперпараметри, налаштування їх змінює індуковані теми.

Що сприяє розвитку альфа-бета-гіперпараметрів при ЛДА?

Як змінюється тема, якщо один чи інший гіперпараметр збільшується чи зменшується?

Чому вони гіперпараметри, а не лише параметри?

topic-model lda parameter

— alvas
джерело

ось хороша часткова відповідь: stats.stackexchange.com/a/37444/156252

— зеленуватий

16

Розподіл Діріхле - це багатофакторний розподіл. Можна позначити параметри Діріхле як вектор розміром K форми ~ $\frac{1}{B(a)} \cdot \prod\limits_{i} x_i^{a_{i-1}}$ , де- вектор розмірупараметрів, а. $a$ $K$ $\sum x_i = 1$

Тепер LDA використовує такі конструкції, як:

документ може мати декілька тем (через таку кратність нам потрібен розподіл Діріхле); і існує розподіл Діріхле, який моделює це відношення
слова також можуть належати до декількох тем, якщо ви розглядаєте їх поза документом; тому тут нам потрібен ще один Діріхлет для моделювання цього

Попередні два - це дистрибуції, які ви насправді не бачите з даних, тому його називають прихованим або прихованим.

Тепер у байєсівському висновку ви використовуєте правило Байєса, щоб визначити задню ймовірність. Для простоти, скажімо, у вас є дані і у вас є модель для цих даних, керована деякими параметрами . Для того, щоб зробити висновок про значення цих параметрів, по повному байєсівському висновку ви виведете задню ймовірність цих параметрів, використовуючи правило Байєса з Зверніть увагу, що тут приходить $x$ $\theta$

p (θ | х) = \frac{p (х | θ) p (θ | α)}{p (х | α)} ⟺ задня ймовірність = \frac{ймовірність \times попередня ймовірність}{гранична ймовірність}

$p(\theta|x) = \frac{p(x|\theta)p(\theta|\alpha)}{p(x|\alpha)} \iff \text{posterior probability} = \frac{\text{likelihood}\times \text{prior probability}}{\text{marginal likelihood}}$

α

$\alpha$ . Це ваше первісне переконання щодо цього розподілу і є параметром попереднього розподілу. Зазвичай це вибирається таким чином, що матиме попередньо кон'югат (тому розподіл задньої частини є однаковим з розподілом попереднього) і часто кодує певні знання, якщо у вас є такий або у вас є максимальна ентропія, якщо ви нічого не знаєте .

Параметри попереднього називають гіперпараметрами . Так, у LDA обидва тематичні розподіли за документами та над словами також мають відповідні пріори, які позначаються зазвичай альфа- та бета-версією, а тому параметри попередніх розподілів називаються гіперпараметрами.

Тепер про вибір пріорів. Якщо ви деякі розподіли ви зауважте, що якщо окремі параметри мають однакове значення, pdf симетричний у симплексі, визначеному значеннями , що є мінімальним або максимальним для pdf, що знаходиться в центрі. $\alpha_k$ $x$

Якщо всі мають значення нижчі за одиницю, максимум виявляється в кутах $\alpha_k$

або, якщо всі значення однакові і більше 1, то максимум буде знайдено в центрі $\alpha_k$

Неважко помітити, що якщо значення для не рівні, симетрія порушена, а максимум знайдеться поблизу більших значень. $\alpha_k$

Додатково, зауважте, що значення параметрів пріорів створюють плавні pdfs розподілу, оскільки значення параметрів близькі до 1. Отже, якщо ви впевнені, що щось чітко розподіляється так, як ви знаєте, з високим ступенем впевненості, ніж значення, далекі від 1 в абсолютній величині, повинні використовуватися, якщо у вас немає такого роду знань, ніж значення, що знаходяться біля 1, кодують цей недолік. Неважко зрозуміти, чому 1 відіграє таку роль у розподілі Діріхле з формули самого розподілу.

Ще один спосіб зрозуміти це - бачити, що попереднє кодування попереднього знання. У той же час ви можете подумати, що попередньо кодуйте деякі попередні бачені дані. Ці дані не бачили сам алгоритм, його бачили ви, ви чомусь навчились, і ви зможете моделювати до того, що знаєте (дізналися). Отже, в попередніх параметрах (гіперпараметри) ви кодуєте також, наскільки великий цей набір даних ви бачили , тому що сума може бути такою ж, як і розмір цього більш-менш уявного набору даних. Отже, чим більший попередній набір даних, тим більша впевненість, чим більші значення ви можете вибрати, тим поверхня біля максимального значення, що означає також менше сумнівів. $\alpha_k$ $\alpha_k$

Сподіваюся, це допомогло.

— rapaio
джерело

Ми вдома / сподіваємось так само щодо текстової підтримки! : D

— Рубенс

11

Якщо припустити симетричні розподіли Діріхле (для простоти), низьке значення альфа додає більшої ваги тому, що кожен документ складається лише з кількох домінуючих тем (тоді як високе значення поверне багато більш відносно домінуючих тем). Аналогічно, низьке значення бета-версії надає більше уваги тому, що кожна тема складається лише з кількох домінуючих слів.

— Аліреза
джерело