Здивованість та крос-ентропія для n-грамових моделей


10

Намагаючись зрозуміти взаємозв'язок між перехресною ентропією та недоумінням. Загалом для моделі M , Perplexity (M) = 2 ^ ентропія (M) . Чи стосується ця залежність для всіх різних n-грамів, тобто уніграма, біграми тощо?


Це власне визначення недоумкування; , що є похідним від нього;)Πi=1N1P(wi|w1,...wi1)N
WavesWashSands

Відповіді:


9

Так, здивування завжди дорівнює двом силою ентропії. Не має значення, який тип у вас моделі, n-грам, униграм або нейронна мережа.

Є кілька причин, чому мовне моделювання людей любить здивування, а не просто ентропію. Одне полягає в тому, що через показник вдосконалення в недоумкуванні «відчуваються» так, що вони є більш істотними, ніж рівнозначне поліпшення ентропії. Інша справа, що перед тим, як почати використовувати недоумкування, про складність мовної моделі повідомлялося за допомогою спрощеного вимірювання коефіцієнта розгалуження, яке більше схоже на здивування, ніж на ентропію.


1

Погодився з відповіддю @Aaron з невеликою модифікацією:

Потужність ентропії не завжди дорівнює двом. Насправді, це буде (база для журналу) під силу ентропії. Якщо ви використовували e як свою базу, то це буде e ^ entropy.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.