Природна інтерпретація гіперпараметрів LDA

21

Чи може хтось пояснити, що таке природна інтерпретація для гіперпараметрів LDA? ALPHAі BETAє параметрами розподілів Диріхле для теми (на документ) і відповідно (на тему). Однак чи може хтось пояснити, що означає вибирати великі значення цих гіперпараметрів проти менших? Чи означає це ставити будь-які попередні переконання щодо обмеженості тем у документах та взаємної ексклюзивності тем із точки зору слів?

Це питання стосується прихованого розподілу Діріхле, але коментар BGReene одразу нижче посилається на лінійний дискримінантний аналіз, який заплутано також скорочується LDA.

— абхинавулкарні
джерело

Я думаю, вам потрібно детальніше ознайомитись із формулою LDA, яку ви використовуєте. Як правило, ці параметри мають лише параметри RDA, LDA зазвичай визначається повністю середнім вектором, коваріаційною матрицею та попередніми ймовірностями.

— BGreene

11

Девід Блей чудово розмовляє, представляючи LDA студентам літнього класу: http://videolectures.net/mlss09uk_blei_tm/

У першому відео він широко висвітлює основну ідею моделювання тем та те, як розповсюджується дистрихлетський розподіл. Нотація на пластині пояснюється так, ніби всі приховані змінні спостерігаються, щоб показати залежності. В основному теми - це розподіли над словами та розповсюдження документів за темами.

У другому відео він показує дію альфа з деякими зразковими графіками. Чим менше альфа, тим більш рідкий розподіл. Також він вводить деякі підходи до висновку.

— Карстен
джерело

7

це не повинно бути прийнятою відповіддю

— samsamara

Я думаю, ти маєш рацію. Я повністю забув, що це написав.

— Карстен

ой! не сподівався побачити коментар від автора! hehe :)

— samsamara

48

Відповідь залежить від того, припускаючи симетричне або асиметричне розподіл Діріхле (або, більш технічно, є чи базова міра однорідна). Якщо щось інше не вказано, більшість реалізацій LDA припускають, що розподіл є симетричним.

Для симетричного розподілу високе значення альфа означає, що кожен документ, ймовірно, містить суміш більшості тем, а не будь-яку окрему тему. Низьке значення альфа ставить менше таких обмежень для документів і означає, що більш імовірно, що документ може містити суміш лише декількох, а то й лише однієї теми. Так само, високе значення бета-версії означає, що кожна тема може містити суміш більшості слів, а не будь-яке слово конкретно, тоді як низьке значення означає, що тема може містити суміш з декількох слів.

Якщо, з іншого боку, розподіл асиметричний, високе значення альфа означає, що певний розподіл теми (залежно від базової міри) є більш імовірним для кожного документа. Аналогічно, високі бета-значення означають, що кожна тема має більше шансів містити певний поєднання слів, визначений базовим показником.

На практиці висока альфа-величина призведе до того, що документи будуть схожішими за темою, яку вони містять. Високе значення бета-версії також призведе до того, що теми будуть схожішими за змістом, які вони містять.

Так, так, альфа-параметри задають попередні переконання щодо нерівномірності / рівномірності теми в документах. Я не зовсім впевнений, що ви маєте на увазі під "взаємною ексклюзивністю тем із точки зору слів".

Більш загально це параметри концентрації для розподілу диріхлету, використовувані в моделі LDA. Щоб отримати деяке інтуїтивне розуміння того, як це працює, ця презентація містить кілька приємних ілюстрацій, а також хороше пояснення LDA загалом.

Додатковий коментар я викладу тут, оскільки не можу коментувати ваше первісне запитання: з того, що я бачив, альфа- та бета-параметри можуть дещо заплутано відноситись до декількох різних параметрів. Основний розподіл диріхлету зазвичай параметризується вектором , але це може бути розкладено на базову міру та концентрацію параметр , такий, що . У випадку, коли параметр альфа - скалярний, зазвичай мається на увазі параметр концентрації , але він також може означати значення $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ , оскільки вони будуть рівні при симетричному розподілі диріхлету. Якщо це вектор, він зазвичай посилається на . Я не впевнений, яка параметризація найбільш поширена, але у своїй відповіді я припускаю, що ви мали на увазі параметри концентрації альфа- та бета-версії. $(\alpha_1, \alpha_2, ... ,\alpha_K)$

— АМО
джерело

2

+1 інформативна відповідь! Я хочу запитати, наскільки високим / низьким є високе / низьке значення для альфа та бета-версії взагалі?

— samsamara

Бета-версія повинна бути розподілом по словах для кожної теми (матриці), правда? Тож як одне значення переводиться в матрицю?

— Ноаміко

Чи правильно я роблю висновок, що висока альфа означає, що документи схожі, а висока бета - означає, що теми схожі?

— Льюїстрик