Намагаючись зрозуміти взаємозв'язок між перехресною ентропією та недоумінням. Загалом для моделі M , Perplexity (M) = 2 ^ ентропія (M) . Чи стосується ця залежність для всіх різних n-грамів, тобто уніграма, біграми тощо?
Намагаючись зрозуміти взаємозв'язок між перехресною ентропією та недоумінням. Загалом для моделі M , Perplexity (M) = 2 ^ ентропія (M) . Чи стосується ця залежність для всіх різних n-грамів, тобто уніграма, біграми тощо?
Відповіді:
Так, здивування завжди дорівнює двом силою ентропії. Не має значення, який тип у вас моделі, n-грам, униграм або нейронна мережа.
Є кілька причин, чому мовне моделювання людей любить здивування, а не просто ентропію. Одне полягає в тому, що через показник вдосконалення в недоумкуванні «відчуваються» так, що вони є більш істотними, ніж рівнозначне поліпшення ентропії. Інша справа, що перед тим, як почати використовувати недоумкування, про складність мовної моделі повідомлялося за допомогою спрощеного вимірювання коефіцієнта розгалуження, яке більше схоже на здивування, ніж на ентропію.
Погодився з відповіддю @Aaron з невеликою модифікацією:
Потужність ентропії не завжди дорівнює двом. Насправді, це буде (база для журналу) під силу ентропії. Якщо ви використовували e як свою базу, то це буде e ^ entropy.