Питання про суцільну сумку слів

11

У мене виникають проблеми з розумінням цього речення:

Перша запропонована архітектура схожа на подачу NNLM, де нелінійний прихований шар видаляється і проекційний шар ділиться на всі слова (не тільки проекційну матрицю); таким чином, усі слова проектуються в одне і те ж положення (їхні вектори усереднюються).

Що таке шар проекції проти матриці проекції? Що означає сказати, що всі слова проектуються в одне і те ж положення? І чому це означає, що їхні вектори усереднюються?

Речення є першим із розділу 3.1 Ефективної оцінки представлень слів у векторному просторі (Mikolov et al. 2013) .

— user70394
джерело

6

Малюнок 1 там дещо прояснює речі. Усі вектори слова з вікна заданого розміру підсумовуються, результат множать на (1 / розмір вікна) і потім подають у вихідний шар.

Матриця проекцій означає цілу таблицю пошуку, де кожне слово відповідає одному вектору реального значення. Проекційний шар є ефективно результатом, який приймає слово (індекс слова) і повертає відповідний вектор. Можна або об'єднати їх (отримуючи введення розміру k * n, де k - розмір вікна, і n - довжина вектора), або як у моделі CBOW, просто підсумовувати їх (отримуючи введення розміру n).

— Денис Тарасов
джерело

По-перше, дякую за вашу відповідь. Мене ще трохи бентежить відмінність між проекційною матрицею та проекційним шаром. Вони здаються однаковими.

— користувач70394

@ user70394 Так, насправді я вважаю термінологію дещо заплутаною. По суті, будь-який шар NN - це функція, яка відображає входи до виходів. Проекційний шар робить це з використанням ваг з проекційної матриці, але це не сама матриця. З огляду на одну і ту ж матрицю можна визначити безліч різних функцій. Насправді, у випадку CBOW, ймовірно, ми могли б сказати, що у нас є проекційний шар із затримкою в часі з наступним шаром підсумовування. У моделі RNNLM "проекційний шар" насправді є частиною повторюваного прихованого шару, який поєднує ваги матриці проекції з періодичними вагами для обчислення результатів.

— Денис Тарасов

1

Коли я переглядав питання CBOW і натрапляв на це, ось альтернативна відповідь на ваше (перше) запитання ("Що таке шар проекції проти матриці ?"), Переглядаючи модель NNLM (Bengio et al., 2003):

$Bengio et al., 2003, Рисунок 1: Нейронна архітектура: f (i, w_ {t − 1}, ···, w_ {t − n + 1}) = g (i, C (w_ {t − 1}) ), ···, C (w_ {t − n + 1})), де g - нейронна мережа, а C (i) - i-й вектор функціонального слова.$

$tanh$ $C(w_i)$ $C$ $tanh$

Додамо і "тільки для запису": Справжня захоплююча частина - це підхід Міколова до вирішення тієї частини, де на зображенні Бенджо ви бачите фразу "найбільше обчислень тут". Бенджіо намагався зменшити цю проблему, зробивши щось, що називається ієрархічним софтмаксом (замість того, щоб просто використовувати softmax) у наступній роботі (Morin & Bengio 2005). Але Міколов зі своєю стратегією негативної підсистеми зробив це на крок далі: Він взагалі не обчислює негативну ймовірність вірогідності всіх "неправильних" слів (або кодувань Хаффмана, як запропонував Бенджо в 2005 р.), А просто обчислює дуже невеликий зразок негативних випадків, який, враховуючи достатньо таких обчислень та розумний розподіл ймовірностей, працює надзвичайно добре. І другий і навіть більш великий внесок, природно, $P(context | w_t = i)$

— fnl
джерело