згідно з книгою Дана Юрафського та Джеймса Х. Мартіна :
"Однак, виявляється, що проста частота не є найкращим показником асоціації між словами. Одна проблема полягає в тому, що сира частота дуже перекошена і не дуже дискримінаційна. Якщо ми хочемо знати, які види контекстів поділяють абрикоси та ананаси але не за допомогою цифрових та інформаційних даних ми не збираємось дискримінувати такі слова, як вони, вони чи вони, які часто зустрічаються з усілякими словами та не є інформативними щодо жодного конкретного слова ".
іноді ми замінюємо цю необроблену частоту позитивною точково взаємною інформацією:
PPMI ( w , c ) = max ( журнал2П( ш , в )П( w ) P( c ), 0 )
PMI самостійно показує, наскільки можливо спостерігати слово w з контекстним словом C порівняно зі спостереженням за ними незалежно. У PPMI ми зберігаємо лише позитивні значення PMI. Поміркуймо, коли PMI дорівнює + або - і чому ми зберігаємо лише негативні:
Що означає позитивний ІМП?
П( ш , в )( С( w ) P( c ) )> 1
П( ш , в ) > ( С( w ) P( c ) )
це буває, коли і трапляються взаємно більше, ніж окремо, як удар і м'яч. Ми хотіли б зберегти це!cшc
Що означає негативний ІМП?
П( ш , в )( С( w ) P( c ) )< 1
П( ш , в ) < ( С( w ) P( c ) )
це означає, що і і або одна з них, як правило, трапляються індивідуально! Це може вказувати на недостовірні статистичні дані через обмежені дані, інакше він показує неінформативні спільні випадки, наприклад, "the" та "ball". ("the" трапляється і з більшістю слів.)cшc
PMI або, особливо, PPMI допомагає нам виловлювати подібні ситуації з інформативним спільним виникненням.