Що таке здивування?


42

Я зіткнувся з недоумінням терміна, який відноситься до усередненої в журналі зворотної ймовірності на небачені дані. Стаття у Вікіпедії про недоумкування не надає інтуїтивного значення для того ж.

Ця міра невдоволення була використана в папері pLSA .

Чи може хтось пояснити необхідність та інтуїтивне значення міри здивування ?


Як обчислити недоумкування для pLSA. У мене є матриця яка має кількість і розраховується алгоритмом TEM і . p ( d ) p ( w | d )Xp(d)p(w|d)
Учень

3
Я перевірив показники 5 книг видобутку даних / машинного навчання / прогностичної аналітики Нісбета, Лароуза, Віттена, Торго та Шемуелі (плюс співавтори), і цей термін не зустрічається ні в одному з них. Я здивований :)
zbicyclist

1
Здивування - ще одне химерне ім’я для невизначеності. Це можна розглядати як внутрішню оцінку проти зовнішньої оцінки. Ян Юрафський вишукано пояснює це на прикладах відповідно до мовного моделювання тут на youtube.com/watch?v=BAN3NB_SNHY
bicepjai

2
@zbicyclist. Якщо ви шукаєте приклади в дикій природі, це особливо часто зустрічається в NLP, а саме для оцінки таких речей, як мовні моделі.
Метт Крауз

У деяких галузях (наприклад, економіка) люди говорять про еквівалентні числа, так що, наприклад, де ентропія на основі природних логарифмів, є еквівалентною кількістю однаково поширених категорій. Отже, дві категорії, кожна з імовірністю 0,5 ентропії виходу та експоненціацією повертаються 2 як кількість однаково поширених категорій. Для неоднакових ймовірностей число еквівалент взагалі не є цілим числом. H ln 2exp(H)Hln2
Нік Кокс

Відповіді:


21

Ви подивилися статтю Вікіпедії про здивування . Це надає здивування дискретного розподілу як

2xp(x)log2p(x)

що також можна записати як

exp(xp(x)loge1p(x))

тобто як середньозважене геометричне середнє значення обертів ймовірностей. При безперервному розподілі сума перетвориться на цілісну.

У статті також подано спосіб оцінки недоумкування для моделі за допомогою фрагментів тестових данихN

2i=1N1Nlog2q(xi)

що також можна було написати

exp(i=1Nloge(1q(xi))N) or i=1N1q(xi)N

або різними іншими способами, і це повинно зробити ще зрозумілішим, звідки походить "середня величина зворотної ймовірності".


Чи є якась різниця між тим, коли e використовується як показник, а не 2?
Генрі Е

2
@HenryE: ні, і загальна основа логарифмів працює також - логарифми в різних базах пропорційні один одному і чітко10alogax=blogbx
Генрі

Я зрозумів стільки ж. Я натрапив на цю відповідь, коли я намагався зрозуміти, чому фрагмент коду використовує е для обчислення недоумкуваності, коли всі інші формулювання, які я раніше бачив, використовували 2. Зараз я розумію, наскільки важливо знати, яке значення має рамка використовує як базу для розрахунку втрат журналу
Генрі Е

27

Я вважав це досить інтуїтивно зрозумілим:

Здивування того, що ви оцінюєте, щодо даних, за якими ви їх оцінюєте, начебто говорить про те, що "ця річ правильна так часто, як це було б у віці x".

http://planspace.org/2013/09/23/perplexity-what-it-is-and-what-yours-is/


Це цікава стаття; можливо, не так глибоко, але добре вступне прочитання.
Моніка Хеднек

1
Я також вважаю цю статтю корисною, jamesmccaffrey.wordpress.com/2016/08/16/…
користувач2561747

11

Я теж замислювався над цим. Перше пояснення непогано, але ось два мої натури на все, що варто.


Перш за все, здивування не має нічого спільного з тим, як часто ви здогадуєтесь. Це має більше спільного з характеристикою складності стохастичної послідовності.

Ми дивимося на величину,

2xp(x)log2p(x)

Давайте спочатку скасуємо журнал та експоненцію.

2xp(x)log2p(x)=1xp(x)p(x)

Я думаю, що варто зазначити, що невдоволення інваріантне з базою, яку ви використовуєте для визначення ентропії. Тож у цьому сенсі недоуміння нескінченно більш унікальне / менш довільне, ніж ентропія як вимірювання.

Відносини з кубиками

Давайте трохи пограємо з цим. Скажімо, ви просто дивитесь на монету. Коли монета справедлива, ентропія - максимум, а недоумкування - максимум

11212×1212=2

Тепер, що відбувається, коли ми дивимося на сторонні кубики? Здивування -N

1(1N1N)N=N

Отже, здивування представляє кількість сторін справедливої ​​штампу, які при прокаті створюють послідовність з тією ж ентропією, що і ваш заданий розподіл ймовірностей.

Кількість штатів

Гаразд, тепер, коли ми маємо інтуїтивне визначення недоумкування, давайте коротко розберемося, як на нього впливає кількість станів у моделі. Почнемо з розподілу ймовірності на станів і створимо новий розподіл ймовірностей над станами таким чином, що коефіцієнт ймовірності вихідних станів залишається колишнім, а новий стан має ймовірність . У випадку, коли ми починаємо з справедливого стороннього штампу, ми можемо уявити собі створення нового стороннього штампу таким чином, щоб нова сторона прокотилася з вірогідністю та вихіднийNN+1NϵNN+1ϵNсторони згортаються з однаковою ймовірністю. Отже, у випадку довільного початкового розподілу ймовірностей, якщо ймовірність кожного стану задана , новий розподіл вихідних станів, що задається новим станом, буде , а нове здивування буде надано:xpxN

px=px(1ϵ)

1ϵϵxNpxpx=1ϵϵxN(px(1ϵ))px(1ϵ)=1ϵϵxNpxpx(1ϵ)(1ϵ)px(1ϵ)=1ϵϵ(1ϵ)(1ϵ)xNpxpx(1ϵ)

У обмеженні як ця величина наближається доϵ0

1xNpxpx

Отже, коли ви робите кочення однієї сторони штампу все більш маловірогідним, здивування закінчується так, ніби сторони не існує.


3
Напевно, це коштує лише ~ 1,39 натів?
Метт Крауз

Чи можете ви як ви отримаєте ? Я можу робити лише
xNpxpx=(1ϵ)1ϵxNpxpx(1ϵ)
xNpxpx=xN(px(1ϵ))px(1ϵ)=xN(1ϵ)px(1ϵ)xNpxpx(1ϵ)
користувач2740

\prod_x^N\left{(1-\epsilon\right)}^{p_x\left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\sum_x^N p_x \left(1-\epsilon\right)}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)\sum_x^N p_x}={\left(1-\epsilon\right)}^{\left(1-\epsilon\right)}

5

XX

P(X=X)2H(X)=12H(X)=1perplexity

Для пояснення, здивування рівномірного розподілу X - це просто | X |, кількість елементів. Якщо ми спробуємо відгадати значення, які приймуть зразки iid з рівномірного розподілу X, просто зробивши iid здогадки з X, ми будемо правильними 1 / | X | = 1 / здивування часу. Оскільки рівномірний розподіл є найскладнішим для здогадування значень, ми можемо використовувати 1 / недоумкування як нижню межу / евристичне наближення для того, наскільки часто наші здогадки будуть правильними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.