Природна інтерпретація гіперпараметрів LDA


21

Чи може хтось пояснити, що таке природна інтерпретація для гіперпараметрів LDA? ALPHAі BETAє параметрами розподілів Диріхле для теми (на документ) і відповідно (на тему). Однак чи може хтось пояснити, що означає вибирати великі значення цих гіперпараметрів проти менших? Чи означає це ставити будь-які попередні переконання щодо обмеженості тем у документах та взаємної ексклюзивності тем із точки зору слів?

Це питання стосується прихованого розподілу Діріхле, але коментар BGReene одразу нижче посилається на лінійний дискримінантний аналіз, який заплутано також скорочується LDA.


Я думаю, вам потрібно детальніше ознайомитись із формулою LDA, яку ви використовуєте. Як правило, ці параметри мають лише параметри RDA, LDA зазвичай визначається повністю середнім вектором, коваріаційною матрицею та попередніми ймовірностями.
BGreene

Відповіді:


11

Девід Блей чудово розмовляє, представляючи LDA студентам літнього класу: http://videolectures.net/mlss09uk_blei_tm/

У першому відео він широко висвітлює основну ідею моделювання тем та те, як розповсюджується дистрихлетський розподіл. Нотація на пластині пояснюється так, ніби всі приховані змінні спостерігаються, щоб показати залежності. В основному теми - це розподіли над словами та розповсюдження документів за темами.

У другому відео він показує дію альфа з деякими зразковими графіками. Чим менше альфа, тим більш рідкий розподіл. Також він вводить деякі підходи до висновку.


7
це не повинно бути прийнятою відповіддю
samsamara

Я думаю, ти маєш рацію. Я повністю забув, що це написав.
Карстен

ой! не сподівався побачити коментар від автора! hehe :)
samsamara

48

Відповідь залежить від того, припускаючи симетричне або асиметричне розподіл Діріхле (або, більш технічно, є чи базова міра однорідна). Якщо щось інше не вказано, більшість реалізацій LDA припускають, що розподіл є симетричним.

Для симетричного розподілу високе значення альфа означає, що кожен документ, ймовірно, містить суміш більшості тем, а не будь-яку окрему тему. Низьке значення альфа ставить менше таких обмежень для документів і означає, що більш імовірно, що документ може містити суміш лише декількох, а то й лише однієї теми. Так само, високе значення бета-версії означає, що кожна тема може містити суміш більшості слів, а не будь-яке слово конкретно, тоді як низьке значення означає, що тема може містити суміш з декількох слів.

Якщо, з іншого боку, розподіл асиметричний, високе значення альфа означає, що певний розподіл теми (залежно від базової міри) є більш імовірним для кожного документа. Аналогічно, високі бета-значення означають, що кожна тема має більше шансів містити певний поєднання слів, визначений базовим показником.

На практиці висока альфа-величина призведе до того, що документи будуть схожішими за темою, яку вони містять. Високе значення бета-версії також призведе до того, що теми будуть схожішими за змістом, які вони містять.

Так, так, альфа-параметри задають попередні переконання щодо нерівномірності / рівномірності теми в документах. Я не зовсім впевнений, що ви маєте на увазі під "взаємною ексклюзивністю тем із точки зору слів".


Більш загально це параметри концентрації для розподілу диріхлету, використовувані в моделі LDA. Щоб отримати деяке інтуїтивне розуміння того, як це працює, ця презентація містить кілька приємних ілюстрацій, а також хороше пояснення LDA загалом.


Додатковий коментар я викладу тут, оскільки не можу коментувати ваше первісне запитання: з того, що я бачив, альфа- та бета-параметри можуть дещо заплутано відноситись до декількох різних параметрів. Основний розподіл диріхлету зазвичай параметризується вектором , але це може бути розкладено на базову міру та концентрацію параметр , такий, що . У випадку, коли параметр альфа - скалярний, зазвичай мається на увазі параметр концентрації , але він також може означати значення(α1,α2,...,αК)у=(у1,у2,...,уК)ααу=(α1,α2,...,αК)α(α1,α2,...,αК), оскільки вони будуть рівні при симетричному розподілі диріхлету. Якщо це вектор, він зазвичай посилається на . Я не впевнений, яка параметризація найбільш поширена, але у своїй відповіді я припускаю, що ви мали на увазі параметри концентрації альфа- та бета-версії.(α1,α2,...,αК)


2
+1 інформативна відповідь! Я хочу запитати, наскільки високим / низьким є високе / низьке значення для альфа та бета-версії взагалі?
samsamara

Бета-версія повинна бути розподілом по словах для кожної теми (матриці), правда? Тож як одне значення переводиться в матрицю?
Ноаміко

Чи правильно я роблю висновок, що висока альфа означає, що документи схожі, а висока бета - означає, що теми схожі?
Льюїстрик
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.