Чи Word2Vec і Doc2Vec є представленнями розподілу або розподіленим представленням?


10

Я читав, що розподільне представлення базується на розподільній гіпотезі, що слова, що виникають у подібному контексті, мають схоже значення.

Word2Vec і Doc2Vec моделюються відповідно до цієї гіпотези. Але в оригінальному документі навіть вони названі як Distributed representation of words and phrasesі Distributed representation of sentences and documents. Отже, чи базуються ці алгоритми на основі розподільного представлення чи розподіленого представлення.

Як щодо інших моделей, таких як LDA та LSA.

Відповіді:


5

Ефективно Word2Vec / Doc2Vec базується на тому, distributional hypothesisде контекстом для кожного слова є його найближчі слова. Так само LSA сприймає весь документ як контекст. Обидві методи вирішують word embeddingпроблему - вбудовують слова в безперервний векторний простір, зберігаючи семантично пов’язані слова близько.

З іншого боку, LDA не створено для вирішення тієї ж проблеми. Вони мають справу з іншою проблемою topic modeling, яка називається , яка полягає у пошуку прихованих тем у наборі документів.


Я отримав відповідь від гугл-груп, в якій заявив, що її розподіляють і розподіляють в різних перспективах. Поширення з точки зору використовуваної гіпотези та розподілене з точки зору розподілених ознак у векторному просторі
яжи

vkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman

2

Туріан, Йосиф, Лев Ратінов і Йошуа Бенджо. " Слово уявлення: простий і загальний метод для навчання під наглядом ". Матеріали 48-го щорічного засідання асоціації з обчислювальної лінгвістики. Асоціація обчислювальної лінгвістики, 2010 р. Визначити розподільні представлення та розподілені представлення таким чином:

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • Розподілена уявлення щільно, маломірна і речова. Поширені уявлення про слова називаються вбудованими словами. Кожен вимір вбудовування являє собою приховану особливість слова, сподіваючись, фіксуючи корисні синтаксичні та семантичні властивості. Розподілене представлення є компактним, в тому сенсі, що воно може представляти експоненціальну кількість кластерів у кількості вимірів.

FYI: Яка різниця між векторами слів, поданнями слова та вкладеннями вектора?


2
Така ж плутанина залишається і у відповіді. Він має властивості як представлення. Давайте подивимось, що у неї спільного. Distributional: Він має матрицю розміру WxC, а потім її зменшують до Wxd, де d - розмір вектора вбудовування. Він використовує розміри вікон для визначення контексту. Distributed: Щільні, маломірні вектори. Він зберігає в цих вимірах приховані риси (семантичні властивості).
яжи

2

Відповідь Андрія Кутузова через групи Google почувала себе задовільною

Я б сказав, що алгоритми word2vec засновані на обох.

Коли люди говорять distributional representation, вони зазвичай мають на увазі мовний аспект: сенс - це контекст, знайте слово його компанією та іншими відомими цитатами.

Але коли люди кажуть distributed representation, це здебільшого не має нічого спільного з лінгвістикою. Йдеться більше про аспект інформатики. Якщо я правильно розумію Міколова та інших, слово distributedу їхніх роботах означає, що кожен окремий компонент векторного зображення не має свого значення. Особливості інтерпретації (наприклад, контексти слів у випадку word2vec) приховані і distributedсеред неперекладаються векторних компонентів: кожен компонент відповідає за кілька можливостей інтерпретації, а кожна інтерпретована функція пов'язана з декількома компонентами.

Отже, word2vec (і doc2vec) використовує розподілені уявлення технічно, як спосіб представлення лексичної семантики. І в той же час вона концептуально базується на розподільчій гіпотезі: вона працює лише тому, що розподільна гіпотеза є істинною (значення слова корелюються з їх типовим контекстом).

Але, звичайно , часто термінів distributedі distributionalвикористовуються як взаємозамінні, збільшуючи непорозуміння :)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.