Так, ви можете скористатися заздалегідь підготовленими моделями. Найвідоміша - навчальна модель GoogleNewsData, яку ви можете знайти тут.
Попередньо підготовлені вектори слів і фраз https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=sharing
Потім ви можете завантажити вектори у двійковому форматі у вашій моделі, використовуючи gensim, як показано нижче.
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.txt', binary=False) # C text format
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.bin', binary=True) # C binary format
Ось інша попередньо побудована модель для англійської Вікіпедії:
https://github.com/idio/wiki2vec/raw/master/torrents/enwiki-gensim-word2vec-1000-nostem-10cbow.torrent
Джерело: https://github.com/idio/wiki2vec/
Використання попередньо побудованої моделі
Get python 2.7
Install gensim: pip install gensim
uncompress downloaded model: tar -xvf model.tar.gz
Load model in gensim:
from gensim.models import Word2Vec
model = Word2Vec.load("path/to/word2vec/en.model")
model.similarity('woman', 'man')
Ви також можете використовувати рукавичку Stanford NLP
Ось чудова збірка заздалегідь підготовлених моделей word2vec.
Деякі додаткові заздалегідь підготовлені моделі:
Детальніше про gensim та код тут: https://radimrehurek.com/gensim/models/word2vec.html
Форум Quora з подібними питаннями