Я дотримувався підручника, який був доступний у Частинах 1 та Частині 2 . На жаль, у автора не було часу для останнього розділу, який передбачав використання подібності косинусів, щоб насправді знайти відстань між двома документами. Я наслідував приклади в статті за допомогою наступного посилання від stackoverflow , включено код, згаданий у вищевказаному посиланні (просто для того, щоб полегшити життя)
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from nltk.corpus import stopwords
import numpy as np
import numpy.linalg as LA
train_set = ["The sky is blue.", "The sun is bright."] # Documents
test_set = ["The sun in the sky is bright."] # Query
stopWords = stopwords.words('english')
vectorizer = CountVectorizer(stop_words = stopWords)
#print vectorizer
transformer = TfidfTransformer()
#print transformer
trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
testVectorizerArray = vectorizer.transform(test_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray
print 'Transform Vectorizer to test set', testVectorizerArray
transformer.fit(trainVectorizerArray)
print
print transformer.transform(trainVectorizerArray).toarray()
transformer.fit(testVectorizerArray)
print
tfidf = transformer.transform(testVectorizerArray)
print tfidf.todense()
в результаті наведеного вище коду я маю таку матрицю
Fit Vectorizer to train set [[1 0 1 0]
[0 1 0 1]]
Transform Vectorizer to test set [[0 1 1 1]]
[[ 0.70710678 0. 0.70710678 0. ]
[ 0. 0.70710678 0. 0.70710678]]
[[ 0. 0.57735027 0.57735027 0.57735027]]
Я не впевнений, як використовувати цей вихід для обчислення подібності косинусів, я знаю, як реалізувати подібність косинусів щодо двох векторів однакової довжини, але тут я не впевнений, як ідентифікувати два вектори.