1- Кількість ознак: З точки зору нейронної мережі вона представляє кількість нейронів у проекційному (прихованому) шарі. Оскільки проекційний шар будується на основі розподільної гіпотези, числовий вектор для кожного слова означає його відношення до його контекстних слів.
Ці особливості засвоюються нейронною мережею, оскільки це метод без нагляду. Кожен вектор має кілька наборів смислових характеристик. Наприклад, візьмемо класичний приклад, V(King) -V(man) + V(Women) ~ V(Queen)
і кожне слово представлене вектором 300 d. V(King)
матиме смислові характеристики Рояльності, Царства, Маскулінності, людини у векторі в певному порядку. V(man)
матимуть чоловічість, людськість, працювати в певному порядку. Таким чином, коли V(King)-V(Man)
це буде зроблено, маскулінність, людські характеристики стануть зведеними нанівець, а коли додаються ті, V(Women)
що мають жіночість, будуть додані людські характеристики, завдяки чому з'явиться вектор, подібний доV(Queen)
. Цікавим є те, що ці характеристики кодуються у векторі в певному порядку, щоб чисельні обчислення, такі як додавання, віднімання, працювали ідеально. Це обумовлено характером непідконтрольного методу навчання в нейромережі.
2- Існує два алгоритми наближення. Hierarchical softmax
і negative sampling
. Коли дається параметр вибірки, він бере негативну вибірку. У випадку ієрархічної софтмакси для кожного слова слова його контекстним словам даються позитивні результати, а всі інші слова у словнику - негативні результати. Питання про складність у часі вирішується негативною вибіркою. Як і в негативному відборі, а не у всьому словниковому складі, лише вибірковій частині лексики даються негативні результати, а вектори навчаються, що набагато швидше, ніж колишній метод.