Це більше схоже на загальне питання НЛП. Який відповідний вклад для підготовки вбудовування слова, а саме Word2Vec? Чи повинні всі речення, що належать до статті, бути окремим документом у корпусі? Або кожна стаття повинна бути документом у зазначеному корпусі? Це лише приклад використання python та gensim.
Корпус розділений на речення:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Корпус розділений за статтею:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Навчання Word2Vec в Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)