Особливості слово векторів у word2vec


9

Я намагаюся зробити аналіз настроїв. Для перетворення слів у слова вектори я використовую модель word2vec. Припустимо, у мене є всі речення у списку з назвою "речення", і я передаю ці речення word2vec наступним чином:

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

Оскільки я є нобієм слова векторів, у мене є два сумніви.
1- Установлення кількості функцій на 300 визначає особливості слова вектора. Але що означають ці риси? Якщо кожне слово в цій моделі представлено масивом 1x300 numpy, то що означають ці 300 ознак для цього слова?

2- Що фактично робить вибірка вниз, представлену параметром 'sample' у наведеній вище моделі?

Заздалегідь спасибі.

Відповіді:


10

1- Кількість ознак: З точки зору нейронної мережі вона представляє кількість нейронів у проекційному (прихованому) шарі. Оскільки проекційний шар будується на основі розподільної гіпотези, числовий вектор для кожного слова означає його відношення до його контекстних слів.

Ці особливості засвоюються нейронною мережею, оскільки це метод без нагляду. Кожен вектор має кілька наборів смислових характеристик. Наприклад, візьмемо класичний приклад, V(King) -V(man) + V(Women) ~ V(Queen)і кожне слово представлене вектором 300 d. V(King)матиме смислові характеристики Рояльності, Царства, Маскулінності, людини у векторі в певному порядку. V(man)матимуть чоловічість, людськість, працювати в певному порядку. Таким чином, коли V(King)-V(Man)це буде зроблено, маскулінність, людські характеристики стануть зведеними нанівець, а коли додаються ті, V(Women)що мають жіночість, будуть додані людські характеристики, завдяки чому з'явиться вектор, подібний доV(Queen). Цікавим є те, що ці характеристики кодуються у векторі в певному порядку, щоб чисельні обчислення, такі як додавання, віднімання, працювали ідеально. Це обумовлено характером непідконтрольного методу навчання в нейромережі.

2- Існує два алгоритми наближення. Hierarchical softmaxі negative sampling. Коли дається параметр вибірки, він бере негативну вибірку. У випадку ієрархічної софтмакси для кожного слова слова його контекстним словам даються позитивні результати, а всі інші слова у словнику - негативні результати. Питання про складність у часі вирішується негативною вибіркою. Як і в негативному відборі, а не у всьому словниковому складі, лише вибірковій частині лексики даються негативні результати, а вектори навчаються, що набагато швидше, ніж колишній метод.


Таке тлумачення особливостей word2vec вводить в оману. У векторі немає виміру маскулінності простору або елемента роялті. Якби це було так, то векторний простір у 300 розмірах міг би представляти лише 300 незалежних смислових дихотомій.
Ден Хікс

@DanHicks: Я ніколи не згадував кожну функцію як вимір простору. Я щойно сказав, що такі семантичні ознаки кодуються у векторі в певному порядку, таким чином, що можливі математичні операції.
яжи

"Особливості" зазвичай відносяться до змінних, які використовуються для представлення випадків - в цьому випадку елементи слова вектори / розміри векторного простору. @ Питання Nain чітко використовує "функції" таким чином. "Семантичні особливості", про які ви говорите, - у кращому випадку нечіткий спосіб говорити про те, як word2vec обробляє аналогії. Вони зовсім не є ознаками слова вектори.
Ден Хікс

1
Ви маєте рацію .. Я відредагував "семантичні ознаки" на "смислові характеристики", а "особливості" у відповіді представляють лише розміри вектора.
яжи

0
  1. Згідно з розподільною гіпотезою, індивідуальний вимір у векторі слова мало означає цього слова в реальному світі. Потрібно турбуватися про окремі розміри. Якщо ваше запитання полягає в тому, як мені вибрати кількість зубців, це суто засноване на експерименті для ваших даних, і воно може перейти від 100 до 1000. Для багатьох експериментів, де навчання проводиться на тексті вікі, розмір 300 в основному дає найкращі результати результат.
  2. Параметр зразка - це параметр, який використовується для обрізки слів, що мають високу частоту. Наприклад, "" "є" "було", ці зупинки не враховуються у вікні під час прогнозування внутрішнього слова, а значення за замовчуванням добре працює для виявлення цих стоп-слів, частота яких вище.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.