Здивованість та крос-ентропія для n-грамових моделей

10

Намагаючись зрозуміти взаємозв'язок між перехресною ентропією та недоумінням. Загалом для моделі M , Perplexity (M) = 2 ^ ентропія (M) . Чи стосується ця залежність для всіх різних n-грамів, тобто уніграма, біграми тощо?

natural-language entropy perplexity

— Маргаліт
джерело

Це власне визначення недоумкування; , що є похідним від нього;)

\sqrt[N]{Π_{i = 1}^{N} \frac{1}{P (w_{i} | w_{1}, . . . w_{i - 1})}}

$\sqrt[N]{\Pi^N_{i=1} \frac{1}{P(w_i|w_1, ... w_{i-1})}}$

— WavesWashSands

9

Так, здивування завжди дорівнює двом силою ентропії. Не має значення, який тип у вас моделі, n-грам, униграм або нейронна мережа.

Є кілька причин, чому мовне моделювання людей любить здивування, а не просто ентропію. Одне полягає в тому, що через показник вдосконалення в недоумкуванні «відчуваються» так, що вони є більш істотними, ніж рівнозначне поліпшення ентропії. Інша справа, що перед тим, як почати використовувати недоумкування, про складність мовної моделі повідомлялося за допомогою спрощеного вимірювання коефіцієнта розгалуження, яке більше схоже на здивування, ніж на ентропію.

— Аарон
джерело

1

Погодився з відповіддю @Aaron з невеликою модифікацією:

Потужність ентропії не завжди дорівнює двом. Насправді, це буде (база для журналу) під силу ентропії. Якщо ви використовували e як свою базу, то це буде e ^ entropy.

— Прашант Гупта
джерело