Які плюси та мінуси застосування точкової взаємної інформації на матриці змісту слова перед SVD?


11

Один з способів генерації вкладення слів є наступними ( дзеркало ):

  1. Отримайте корпорацію, наприклад, "Мені подобається літати. Мені подобається NLP. Мені подобається глибоке навчання".
  2. Побудуйте з нього матрицю потоку слова:

введіть тут опис зображення

  1. Виконайте SVD на та збережіть перші стовпці U.Xk

введіть тут опис зображення

Кожен рядок підматриці буде словом, що вбудовує слово, яке представляє рядок (рядок 1 = "Я", рядок 2 = "як",…).U1:|V|,1:к

Між кроків 2 і 3, точково взаємної інформація іноді застосовуються (наприклад , А. Herbelot і Е. Веччі 2015 .. Побудова розділяється світ: Mapping розподільного модельних теоретико-семантичних просторів в Працях конференції по 2015 Емпіричним методам в задачах обробки природної мови. Лісабон, Португалія .).

Які плюси та мінуси застосування точкової взаємної інформації на матриці змісту слова перед SVD?

Відповіді:


11

згідно з книгою Дана Юрафського та Джеймса Х. Мартіна :

"Однак, виявляється, що проста частота не є найкращим показником асоціації між словами. Одна проблема полягає в тому, що сира частота дуже перекошена і не дуже дискримінаційна. Якщо ми хочемо знати, які види контекстів поділяють абрикоси та ананаси але не за допомогою цифрових та інформаційних даних ми не збираємось дискримінувати такі слова, як вони, вони чи вони, які часто зустрічаються з усілякими словами та не є інформативними щодо жодного конкретного слова ".

іноді ми замінюємо цю необроблену частоту позитивною точково взаємною інформацією:

PPMI(ш,c)=макс(журнал2П(ш,c)П(ш)П(c),0)

PMI самостійно показує, наскільки можливо спостерігати слово w з контекстним словом C порівняно зі спостереженням за ними незалежно. У PPMI ми зберігаємо лише позитивні значення PMI. Поміркуймо, коли PMI дорівнює + або - і чому ми зберігаємо лише негативні:

Що означає позитивний ІМП?

  • П(ш,c)(П(ш)П(c))>1

  • П(ш,c)>(П(ш)П(c))

  • це буває, коли і трапляються взаємно більше, ніж окремо, як удар і м'яч. Ми хотіли б зберегти це!cшc

Що означає негативний ІМП?

  • П(ш,c)(П(ш)П(c))<1

  • П(ш,c)<(П(ш)П(c))

  • це означає, що і і або одна з них, як правило, трапляються індивідуально! Це може вказувати на недостовірні статистичні дані через обмежені дані, інакше він показує неінформативні спільні випадки, наприклад, "the" та "ball". ("the" трапляється і з більшістю слів.)cшc

PMI або, особливо, PPMI допомагає нам виловлювати подібні ситуації з інформативним спільним виникненням.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.