Кожен алгоритм, який займається текстовими даними, має словниковий запас. У випадку з word2vec словниковий запас складається з усіх слів у вхідному корпусі або принаймні з тих, що перевищують поріг мінімальної частоти.
Алгоритми, як правило, ігнорують слова, що знаходяться поза їх словником. Однак є способи переосмислити свою проблему таким чином, щоб по суті не було слов, що не знаходяться поза словником.
Пам'ятайте, що слова є просто "лексемами" у word2vec. Вони можуть бути ngram або вони можуть бути літерами. Один із способів визначити свій словниковий запас - сказати, що кожне слово, яке зустрічається принаймні X разів, є у вашому лексиці. Тоді до вашої лексики додаються найпоширеніші "склади" (nграм літер). Потім ви додаєте окремі букви до свого словника.
Таким чином ви можете визначити будь-яке слово як будь-яке
- Слово у вашому словнику
- Набір складів у вашому словниковому запасі
- Комбінований набір букв і складів у вашому словнику