Мене бентежить питання про те, як обчислити здивування зразка затримки, коли роблять приховане розподілення Діріхле (LDA). Документи на тему бризнуть над нею, змушуючи мене думати, що я пропускаю щось очевидне ...
Здивування сприймається як хороший показник ефективності для LDA. Ідея полягає в тому, щоб ви зберігали зразок проведення, навчали свій LDA на решті даних, а потім обчислювали недоумкування утримань.
Враженість може бути задана формулою:
(З огляду на пошук зображень у масштабних базах зображень, Horster та ін .)
Тут - кількість документів (у тестовій вибірці, імовірно), w d являє собою слова в документі d , N d - кількість слів у документі d .
Мені незрозуміло, як розумно розрахувати , оскільки у нас немає тематичних сумішей для розданих документів. В ідеалі, ми б об'єдналися за допомогою Dirichlet до всіх можливих сумішей тем і використали б багатозначні теми, які ми дізналися. Однак обчислення цього інтегралу не представляється легким завданням.
Крім того, ми могли б спробувати вивчити оптимальну суміш тем для кожного розібраного документа (враховуючи наші вивчені теми) та використати це для обчислення невдачі. Це можна зробити, однак це не так банально, як виглядають такі документи, як Horter et al та Blei et al, і мені не відразу зрозуміло, що результат буде еквівалентний ідеальному випадку вище.