Запитання з тегом «topic-models»

4
R пакети для моделювання теми / LDA: просто `topicmodels` та` lda` [закрито]
Мені здається, що лише два пакети R здатні виконувати приховане розподілення Діріхле : Один є ldaавтором Джонатана Чанга; а другий topicmodelsавтор - Беттіна Грюн та Курт Горник. Які відмінності між цими двома пакетами щодо продуктивності, деталей реалізації та розширюваності?

3
Тематичні моделі та методи спільного виникнення слів
Популярні моделі тем, як LDA, як правило, кластеризують слова, які мають тенденцію спільно зустрічатися в одну тему (кластер). У чому полягає основна відмінність таких моделей тематики від інших простих підходів, заснованих на кластеризації на основі спільного виникнення, таких як PMI? (PMI позначає точку взаємної інформації, і вона використовується для ідентифікації …

2
Стабільність теми в моделях тем
Я працюю над проектом, де хочу отримати деяку інформацію про зміст серії відкритих нарисів. У цьому конкретному проекті 148 осіб написали нариси про гіпотетичну студентську організацію як частину більшого експерименту. Хоча в моїй галузі (соціальна психологія) типовим способом аналізу цих даних було б кодування есе вручну, я б хотів це …

2
Природна інтерпретація гіперпараметрів LDA
Чи може хтось пояснити, що таке природна інтерпретація для гіперпараметрів LDA? ALPHAі BETAє параметрами розподілів Диріхле для теми (на документ) і відповідно (на тему). Однак чи може хтось пояснити, що означає вибирати великі значення цих гіперпараметрів проти менших? Чи означає це ставити будь-які попередні переконання щодо обмеженості тем у документах …

2
Як обчислити недоумкування утримування за допомогою латентного розподілу Діріхле?
Мене бентежить питання про те, як обчислити здивування зразка затримки, коли роблять приховане розподілення Діріхле (LDA). Документи на тему бризнуть над нею, змушуючи мене думати, що я пропускаю щось очевидне ... Здивування сприймається як хороший показник ефективності для LDA. Ідея полягає в тому, щоб ви зберігали зразок проведення, навчали свій …

1
Прогнозування теми за допомогою прихованого розподілу Діріхле
Я використав LDA на корпусі документів і знайшов деякі теми. Вихід мого коду - дві матриці, що містять ймовірності; ймовірності однієї док-теми та інші ймовірності слова-теми. Але я фактично не знаю, як використовувати ці результати, щоб передбачити тему нового документа. Я використовую вибірку Гіббса. Хтось знає як? Спасибі

3
Тематичні моделі для коротких документів
Натхненний цим питанням , мені цікаво, чи зроблена якась робота над тематичними моделями для великих збірок надзвичайно коротких текстів. Моя інтуїція полягає в тому, що Twitter повинен бути природним натхненником для таких моделей. Однак, з деяких обмежених експериментів, схоже, що стандартні тематичні моделі (LDA тощо) на цих даних досить погано …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.