Чому ієрархічна софтмакс краща для рідкісних слів, тоді як негативна вибірка краща для частих слів?

12

Цікаво, чому ієрархічний софтмакс кращий для нечастого слова, тоді як негативний вибірки краще для частих слів у моделях CBOW та пропуску грам word2vec. Я прочитав претензію на https://code.google.com/p/word2vec/ .

— Франк Дернонкур
джерело

10

Я не знавець у word2vec, але, прочитавши Ронга, X. (2014). Word2vec Навчання параметрам word Пояснено і з власного досвіду NN я спростив міркування до цього:

Ієрархічний софтмакс забезпечує підвищення ефективності тренувань, оскільки вихідний вектор визначається деревоподібним обходом шарів мережі; даний зразок тренінгу повинен оцінювати / оновлювати мережеві блоки , а не . Це по суті розширює ваги для підтримки великої лексики - дане слово пов'язане з меншою кількістю нейронів і візою навпаки. $O(log(N))$ $O(N)$
Негативний вибірковий вибір - це спосіб вибірки навчальних даних, подібний до стохастичного градієнтного спуску, але ключовим є пошук негативних прикладів тренувань. Інтуїтивно він тренується на базі місць вибірки, можливо, очікував слова, але не знайшов такого, що швидше, ніж навчити весь корпус кожній ітерації та має сенс для загальних слів.

Два теоретично теоретично не є винятковими, але все одно, мабуть, саме тому вони будуть кращими для частих і рідкісних слів.

— Андрій Чарнескі
джерело

1

Я розумію, це через кодування Хаффмана, яке використовується при побудові ієрархії категорій.

Ієрархічний софтмакс використовує дерево сигмоподібних вузлів замість однієї великої софтмакси, кодування Хаффмана забезпечує збалансованість розподілу точок даних, що належать кожній стороні будь-якого сигмоподібного вузла. Тому це допомагає виключити перевагу до частих категорій порівняно з використанням однієї великої софтмакси та негативної вибірки.

— dontloo
джерело

0

Ієрархічна софтмакс будує дерево над усім словником, а вузли листя, що представляють рідкісні слова, неминуче успадковують векторні уявлення предків на дереві, на що можуть вплинути інші часті слова в корпусі. Це піде на користь додаткової підготовки нового корпусу.

Негативні вибірки розроблені на основі оцінки контрастності шуму і випадковим чином відбирають слова не в контексті, щоб відрізнити спостережувані дані від штучно генерованого випадкового шуму.

— Амей Ядав
джерело