Це здебільшого залежить від того, наскільки "найсучаснішого" (SOTA) ви хочете, порівняно з тим, наскільки глибоко ви хочете піти (каламбур призначений ...).
Якщо ви можете жити лише з неглибокими вкладками слів, як це передбачено word2vec, Glove або fastText, я вважаю, що відстань перенесення слова (WMD [так, справді ...]) є приємною функцією для вимірювання (коротких) відстаней до документа [1] . У минулому я навіть бачив декілька ноутбуків Python, які пропонують "підручники" для цієї міри відстані, тому його дійсно легко розпочати.
Однак якщо вас більше цікавить SOTA, вам доведеться вивчити глибоке (подання послідовностей) навчання, використовуючи якусь періодичну мережу, яка вивчає тематичну модель з ваших пропозицій. Окрім інтеграції (семантичного) вбудовування слів, ці підходи виходять за рамки [доброго, старого] підходу «мішок слів», вивчаючи представлення тем за допомогою залежностейслів у реченні [с]. Наприклад, модель періодичної теми теми (SLRTM) є досить цікавою глибокою, повторюваною моделлю, заснованою на ідеях більш традиційних LDA (Blei et al.) Або LSA (Landauer et al.), Але це лише arXiv папір (тому повинні застосовуватися всі застереження "застереження" взяти-з-за-зерна-солі "щодо нерецензованих досліджень ...) [2]. Незважаючи на це, у статті є багато відмінних покажчиків та посилань, щоб розпочати дослідження, якщо ви хочете спуститися з цієї кролячої нори.
Нарешті, слід уточнити, що я не стверджую, що це узгоджені найкращі методи для моделей мішок слів і послідовностей відповідно. Але вони повинні вас зблизити з будь-яким "найкращим" SOTA, і, принаймні, повинні стати відмінною відправною точкою.
[1] Метт Дж. Куснер та ін. Від вставки Word до документа відстані. Матеріали 32-ї міжнародної конференції з машинного навчання, JMLR, 2015 р.
[2] Fei Tian та ін. SLRTM: Дозволити темам говорити про себе. arXiv 1604.02038, 2016.