Які плюси та мінуси застосування точкової взаємної інформації на матриці змісту слова перед SVD?

Один з способів генерації вкладення слів є наступними ( дзеркало ):

Отримайте корпорацію, наприклад, "Мені подобається літати. Мені подобається NLP. Мені подобається глибоке навчання".
Побудуйте з нього матрицю потоку слова:

Виконайте SVD на та збережіть перші стовпці U. $X$ $k$

Кожен рядок підматриці буде словом, що вбудовує слово, яке представляє рядок (рядок 1 = "Я", рядок 2 = "як",…). $U_{1:|V|,1:k}$

Між кроків 2 і 3, точково взаємної інформація іноді застосовуються (наприклад , А. Herbelot і Е. Веччі 2015 .. Побудова розділяється світ: Mapping розподільного модельних теоретико-семантичних просторів в Працях конференції по 2015 Емпіричним методам в задачах обробки природної мови. Лісабон, Португалія .).

Які плюси та мінуси застосування точкової взаємної інформації на матриці змісту слова перед SVD?

— Франк Дернонкур
джерело

згідно з книгою Дана Юрафського та Джеймса Х. Мартіна :

"Однак, виявляється, що проста частота не є найкращим показником асоціації між словами. Одна проблема полягає в тому, що сира частота дуже перекошена і не дуже дискримінаційна. Якщо ми хочемо знати, які види контекстів поділяють абрикоси та ананаси але не за допомогою цифрових та інформаційних даних ми не збираємось дискримінувати такі слова, як вони, вони чи вони, які часто зустрічаються з усілякими словами та не є інформативними щодо жодного конкретного слова ".

іноді ми замінюємо цю необроблену частоту позитивною точково взаємною інформацією:

PPMI (ш, c) = макс ({журнал}_{2} \frac{П (ш, c)}{П (ш) П (c)}, 0)

$\text{PPMI}(w,c) = \max{\left(\log_{2}{\frac{P(w,c)}{P(w)P(c)}},0\right)}$

PMI самостійно показує, наскільки можливо спостерігати слово w з контекстним словом C порівняно зі спостереженням за ними незалежно. У PPMI ми зберігаємо лише позитивні значення PMI. Поміркуймо, коли PMI дорівнює + або - і чому ми зберігаємо лише негативні:

Що означає позитивний ІМП?

$\frac{P(w,c)}{(P(w)P(c))} > 1$
$P(w,c) > (P(w)P(c))$
це буває, коли і трапляються взаємно більше, ніж окремо, як удар і м'яч. Ми хотіли б зберегти це! $w$ $c$

Що означає негативний ІМП?

$\frac{P(w,c)}{(P(w)P(c))} < 1$
$P(w,c) < (P(w)P(c))$
це означає, що і і або одна з них, як правило, трапляються індивідуально! Це може вказувати на недостовірні статистичні дані через обмежені дані, інакше він показує неінформативні спільні випадки, наприклад, "the" та "ball". ("the" трапляється і з більшістю слів.) $w$ $c$

PMI або, особливо, PPMI допомагає нам виловлювати подібні ситуації з інформативним спільним виникненням.

— Маріям Гнр
джерело