Яке позиційне кодування в моделі трансформаторів?

23

Я новачок в ML, і це моє перше запитання тут, так що вибачте, якщо моє питання нерозумно.

Я намагаюся прочитати та зрозуміти статтю Увага. Все, що вам потрібно, і в ній є малюнок:

Я не знаю, що таке кодування позицій . прослухавши кілька відео на YouTube, я виявив, що це вбудовування, яке має як значення, так і положення слова в ньому і має щось спільне з або $sin(x)$ $cos(x)$

але я не міг зрозуміти, що це таке і як саме це робить. тож я тут за допомогою. Заздалегідь спасибі.

— Пейман
джерело

31

Наприклад, для слова у позиції у вхідній послідовності , з вбудованим 4-мірним , а , операцією буде $w$ $pos \in [0, L-1]$ $\boldsymbol{w}=(w_0,\cdots, w_{L-1})$ $e_{w}$ $d_{model}=4$

\begin{aligned} е_{ш}^{'} & = е_{ш} + [с i н (\frac{p о с}{10000^{0}}), c о с (\frac{p о с}{10000^{0}}), с i н (\frac{p о с}{10000^{2 / 4}}), c о с (\frac{p о с}{10000^{2 / 4}})] \\ = е_{ш} + [с i н (p о с), c о с (p о с), с i н (\frac{p о с}{100}), c о с (\frac{p о с}{100})] \end{aligned}

$\begin{align*}e_{w}' &= e_{w} + \left[sin\left(\frac{pos}{10000^{0}}\right), cos\left(\frac{pos}{10000^{0}}\right),sin\left(\frac{pos}{10000^{2/4}}\right),cos\left(\frac{pos}{10000^{2/4}}\right)\right]\\ &=e_{w} + \left[sin\left(pos\right), cos\left(pos\right),sin\left(\frac{pos}{100}\right),cos\left(\frac{pos}{100}\right)\right]\\ \end{align*}$

де формула позиційного кодування наступна з (таким чином, ) в оригінальному документі.

ПЕ (p о с, 2 i) = с i н (\frac{p о с}{10000^{2 i / г_{м о г е л}}}),

$\text{PE}(pos,2i)=sin\left(\frac{pos}{10000^{2i/d_{model}}}\right),$

ПЕ (p о с, 2 i + 1) = c о с (\frac{p о с}{10000^{2 i / г_{м о г е л}}}) .

$\text{PE}(pos,2i+1)=cos\left(\frac{pos}{10000^{2i/d_{model}}}\right).$

d_{m o d e l} = 512

$d_{model}=512$

i \in [0, 255]

$i \in [0, 255]$

Цей прийом використовується тому, що в запропонованій архітектурі немає поняття про порядок слів (1-е слово, 2-е слово, ..). Усі слова вхідної послідовності подаються в мережу без особливого порядку або положення (на відміну від звичайних архітектур RNN або ConvNet), таким чином модель не має уявлення про те, як впорядковані слова. Отже, сигнал, який залежить від позиції, додається до кожного вбудовування слів, щоб допомогти моделі включити порядок слів. На основі експериментів, це доповнення не тільки уникає руйнування вбудованої інформації, але й додає важливу інформацію про положення. У випадку з RNN ми подаємо слова послідовно RNN, тобто -те слово подається на етапі , що допомагає моделі включити порядок слів. $n$ $n$

Ця стаття Джея Аламмара пояснює статтю чудовою візуалізацією. На жаль, його приклад позиційного кодування на даний момент є некоректним (він використовує для першої половини вбудовування розмірів і для другої половини, замість того, щоб використовувати для парних індексів і для непарних індексів). $sin$ $cos$ $sin$ $cos$

— Есмалійський
джерело

1

У вас також є ця чудова стаття, суто орієнтована на вкладення позицій: kazemnejad.com/blog/…

— Йохан Обадія

6

Позиційне кодування - це повторне представлення значень слова та його положення у реченні (з огляду на те, що не те саме бути на початку, що в кінці чи середині).

Але ви повинні врахувати, що речення можуть бути будь-якої тривалості, тому сказати слово "" X "є третім у реченні" не має сенсу, якщо є речення різної довжини: 3-е у 3-словому реченні повністю відмінні від 3-го у 20-словому реченні.

Позиційний кодер - це допомогти циклічному характеру функцій та для повернення інформації про положення слова в реченні. $sin(x)$ $cos(x)$

— Хуан Естебан де ла Калле
джерело

2

Дякую тобі. Ви могли б детальніше пояснити, як цей позиційний кодер робить це з і ?

s i n

$sin$

c o s

$cos$

— Пейман

1

Щоб додати до інших відповідей, реалізація посилань OpenAI обчислює його в природному просторі журналу (я думаю, що для підвищення точності, я думаю. Не впевнений, чи могли вони використовувати лог у базі 2). Вони не придумали кодування. Ось генерація таблиці пошуку PE, переписана на C як цикл for-for:

int d_model = 512, max_len = 5000;
double pe[max_len][d_model];

for (int i = 0; i < max_len; i++) {
   for (int k = 0; k < d_model; k = k + 2) {
      double div_term = exp(k * -log(10000.0) / d_model);
      pe[i][k] = sin(i * div_term);
      pe[i][k + 1] = cos(i * div_term);
   }
}

— Еріс
джерело