Заголовок цього питання є окремим запитанням до його тексту, тому я відповім обидва окремо (враховуючи, що одне веде в інше).
- Як я можу зробити висновки про невидимі речення:
# ... trained model stored in var model
list_of_words = ["this", "is", "a", "new","unseen", "sentence"]
inferred_embedding = model.infer_vector(list_of_words)
W∈RN×PD∈RM×Rk
1M∑i=1M1|Di|∑t=k|Di−1|−klog(p(wit|wit−k,...,wit+k,Di))
Diith|Di|wittthithD
WD
- Чи можемо ми зробити висновок, що можливо небачене речення точно відповідає реченню у навчальному наборі?
D
Навіть виправлення випадкового насіння може не спрацювати, існує стільки інших змінних, які можуть вплинути на його конвергенцію. Першу відповідь див . На https://github.com/RaRe-Technologies/gensim/isissue/374 .
У будь-якому випадку ви можете знайти найбільш подібну мітку у вашому наборі даних до поданого речення, просто перебравши її на навчальний набір і порівнявши схожість з виведеним вектором. Але чому б ви хотіли точно відповідати чомусь у тренувальному наборі? ось те, що регулярні вирази призначені для вбудовування цих документів, - це для керованих чи непідконтрольних навчальним завданням (тобто класифікації та кластеризації).