Для завдання з обробки природних мов (NLP) часто використовуються вектори word2vec як вбудовування для слів. Однак може бути багато невідомих слів, які не фіксуються векторами word2vec просто тому, що ці слова бачать недостатньо часто в навчальних даних (у багатьох реалізаціях використовується мінімальна кількість, перш ніж додати слово до словника). Особливо це може бути з текстом, наприклад, з Twitter, де слова часто неправильно написані.
Як слід поводитися з такими невідомими словами при моделюванні завдання NLP, такого як прогнозування настроїв за допомогою довготривалої короткострокової (LSTM) мережі? Я бачу два варіанти:
- Додавання лексеми "невідомого слова" до словника word2vec.
- Видалення цих невідомих слів таким чином, що LSTM навіть не знає, яке слово було у реченні.
Який переважний спосіб поводження з цими словами?