Чому пропускний грам краще для рідкісних слів, ніж CBOW?

19

Цікаво, чому пропускати грам краще для нечастого слова, ніж CBOW у word2vec. Я прочитав претензію на https://code.google.com/p/word2vec/ .

natural-language word2vec word-embeddings

— Франк Дернонкур
джерело

14

У CBOW вектори з контекстних слів усереднюються перед прогнозуванням центрального слова. У пропускному грамі немає середнього вбудовування векторів. Схоже, що модель може засвоїти кращі уявлення для рідкісних слів, коли їх вектори не порівнюються з іншими контекстними словами в процесі здійснення прогнозів.

— Аарон
джерело

13

Ось моє надто спрощене і досить наївне розуміння різниці:

Як ми знаємо, CBOW вчаться передбачати слово за контекстом. Або максимізувати ймовірність цільового слова, дивлячись на контекст. І це трапляється проблемою для рідкісних слів. Наприклад, дана контекстна yesterday was really [...] dayмодель CBOW скаже вам, що, швидше за все, слово є beautifulабо nice. Слова на зразок delightfulотримають набагато менше уваги моделі, оскільки вона покликана передбачити найбільш вірогідне слово. Рідкісні слова будуть згладжені на багатьох прикладах з більш частими словами.

З іншого боку, пропускний грам призначений для прогнозування контексту. Враховуючи слово, delightfulвоно повинне зрозуміти це і сказати нам, що існує велика ймовірність, контекст є yesterday was really [...] dayчи інший відповідний контекст. З пропуском грам слово delightfulне намагатиметься конкурувати зі словом, beautifulале натомість delightful+contextпари будуть розглядатися як нові спостереження. Через це пропускному граму знадобиться більше даних, тому він навчиться розуміти навіть рідкісні слова.

— Сергій
джерело

0

Я щойно зіткнувся з документом, який показує протилежне: CBOW краще для рідкісних слів, ніж пропускний грам https://arxiv.org/abs/1609.08293 . Цікаво, які джерела заявленої претензії на https://code.google.com/p/word2vec/ .

— xsway
джерело

Я вважаю, що Міколов написав цей інструментарій сам. Цікаво, що у своїй роботі: paper.nips.cc/paper/… він заявляє: "Ми показуємо, що підзагортання частих слів під час тренувань призводить до значного прискорення (приблизно 2х - 10х) та покращує точність подання менш часто зустрічаються слів. " тому його пропускний грам із розширенням підсистеми.

— Кевін