Оскільки ви використовуєте gensim, ви, ймовірно, повинні використовувати його doc2vec. doc2vec - це розширення word2vec на рівні фрази, речення та документа. Це досить просте розширення, описане тут
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim приємний тим, що він інтуїтивний, швидкий і гнучкий. Що чудово, це те, що ви можете перехопити вкладені слова, що перевіряються, на офіційній сторінці word2vec, а шар syn0 gensim Doc2Vec піддається впливу, щоб ви могли наносити слово вбудовування за допомогою цих високоякісних векторів!
GoogleNews-vectors-negative300.bin.gz (як пов’язано в коді Google )
Я думаю, що gensim, безумовно, найпростіший (і поки що для мене найкращий) інструмент для вбудовування речення у векторний простір.
Існують інші методи речення у векторному реченні, ніж ті, що запропоновані в статті Le & Mikolov вище. Сочер і Меннінг зі Стенфорда, безумовно, два найвідоміші дослідники, що працюють в цій галузі. Їх робота базується на композиційному принципі - семантика речення походить від:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Вони запропонували кілька таких моделей (стають все складнішими) щодо використання композиційності для побудови уявлень на рівні речень.
2011 - розгортання рекурсивного автокодера (дуже порівняно простий. Почніть тут, якщо зацікавлено)
2012 рік - матрично-векторна нейронна мережа
2013 рік - нейронна тензорна мережа
2015 - Дерево LSTM
всі його документи доступні на socher.org. Деякі з цих моделей доступні, але я все-таки рекомендую gensim's doc2vec. Для одного URAE 2011 року не особливо потужний. Крім того, він перевіряється з вагами, що підходять для перефразовування даних новин-у. Код, який він надає, не дозволяє перенавчати мережу. Ви також не можете поміняти місцями в різних векторах слів, тому ви застрягли з вбудованими попереднім словом2vec 2011 року від Turian. Ці вектори, звичайно, не знаходяться на рівні word2vec або GloVe.
Ще не працювали з Деревом LSTM, але це здається дуже перспективним!
tl; dr Так, використовуйте gensim's doc2vec. Але інші методи існують!