Відповіді:
Ну і назви досить прямолінійні і повинні дати вам чітке уявлення про векторні уявлення.
Алгоритм Word2Vec будує розподілене семантичне подання слів. Є два основні підходи до навчання, розподілена сумка слів та модель пропуску грамів. Один передбачає передбачення контекстних слів за допомогою центрального слова, а інший передбачає передбачення слова за допомогою контекстних слів. Про це ви можете детально прочитати у статті Миколова .
Ця ж ідея може поширюватися і на речення, і на документи, де замість того, щоб вивчати представлення слів, ви вивчаєте її для речень чи документів. Однак, щоб отримати загальне уявлення про SentenceToVec, подумайте про це як про математичне середнє уявлення про векторні слова всіх слів у реченні. Ви можете отримати дуже гарне наближення просто шляхом усереднення та без навчання будь-якого SentenceToVec, але, звичайно, це має свої обмеження.
Doc2Vec розширює ідею SentenceToVec, а точніше Word2Vec, оскільки речення також можна розглядати як документи. Ідея тренувань залишається подібною. Ви можете прочитати Doc2Vec Mikolov в папір для більш докладної інформації.
Подаючи заявки, це залежало б від завдання. Word2Vec ефективно фіксує семантичні відносини між словами, отже, їх можна використовувати для обчислення схожості слів або подавати як особливості для різних завдань NLP, таких як аналіз настроїв тощо. не лише слова. Наприклад, якщо ви намагаєтеся розібратися, чи є два питання переповнення стека - це дублікати один одного.
Простий пошук в Google допоможе вам отримати ряд застосувань цих алгоритмів.