Визначення та походження "перехресної ентропії"

15

Не посилаючись на джерела, Вікіпедія визначає перехресну ентропію дискретних розподілів і мають бути $P$ $Q$

\begin{aligned} Н^{\times} (П; Q) & = - \sum_{х} p (х) журнал q (х) . \end{aligned}

$\begin{align} \mathrm{H}^{\times}(P; Q) &= -\sum_x p(x)\, \log q(x). \end{align}$

Хто перший почав вживати цю кількість? А хто винайшов цей термін? Я заглянув:

JE Shore та RW Johnson, "Аксіоматичне виведення принципу максимальної ентропії та принципу мінімальної крос-ентропії", "Інформаційна теорія, IEEE Transaction on, vol. 26, ні. 1, с. 26-37, січень 1980.

Я стежив за їх вступом до

А. Верль, "Загальні властивості ентропії", Огляди сучасної фізики, т. 50, ні. 2, С. 221-260, квітня 1978.

який ніколи не вживає цього терміна.

Нічого не робить

С. Куллбек та Р. Лейблер, "Про інформацію та достатність", "Анали математичної статистики", т. 22, ні. 1, С. 79-86, 1951.

Я зазирнув

TM Cover і JA Thomas, елементи інформаційної теорії (серія Wiley в галузі телекомунікацій та обробки сигналів). Wiley-Interscience, 2006.

і

І. Добре, "Максимальна ентропія для складання гіпотез, особливо для багатовимірних таблиць на випадок надзвичайних ситуацій", Анали математичної статистики, т. 34, ні. 3, ф. 911-934, 1963.

але обидва документи визначають перехресну ентропію як синонім KL-дивергенції.

Оригінальний папір

С. Шеннон, "Математична теорія комунікацій", Технічний журнал системи Белл, т. 27, 1948.

Не згадує перехресну ентропію (і має дивне визначення "відносної ентропії": "Відношення ентропії джерела до максимального значення, яке воно могло мати, поки все ще обмежене одними і тими ж символами").

Нарешті я заглянув у старі книги та папери Трибуса.

Хтось знає, як називається рівняння вище, і хто його вигадав, або має його приємне уявлення?

information-theory entropy

— Ніл G
джерело

7

$I_{1:2}(E)$ $2.2-2.4$

Редагувати:

Додаткові псевдоніми включають інформаційний захід Куллбека-Лейблера, відносну інформаційну міру, перехресну ентропію, дивергенцію I та неточність Керриджа .

— Ітамар
джерело

Спасибі! Я перевірив ці посилання, але у мене все ще виникають проблеми з пошуком терміна "перехресна ентропія" або відповідного рівняння. Будь ласка, повідомте мене, якщо ви бачили його в одній із статей чи книг.

— Ніл Г

1

Ви також можете шукати назад в науковці Google за статтями з різними псевдонімами, опублікованими до певного року (наприклад, крос-ентропія до 1980 року ).

— Ітамар

1

Щодо вашої недавньої редакції, мене цікавить історія форми, наведеної в моєму запитанні. Я вже зауважував, що ранні статті використовували "перехресну ентропію", щоб означати "розбіжність KL". (Зауважте, що у моєму питанні є папір Kullback.)

— Ніл G

Вибачте, я пропустив папір Kullback у запитанні

— Ітамара

4

Завдяки пропозиції @ Itamar, я знайшов згадку в:

IJ Good, "Деяка термінологія та позначення в інформаційній теорії", Праці IEE - Частина C: Монографії, т. 103, вип. 3, С. 200–204, березень 1956.

Мені все-таки було б дуже корисно знайти приємну презентацію крос-ентропії.

— Ніл G
джерело

2

Дякуємо за це - хороший підсумок довідкової літератури. Стаття Шора та Джонсона 1980 року в IEEE - це гарний початок, але вказівник @ itamar на монографію Good від 1956 року ще кращий. Ця концепція, як видається, випливає з роботи Шеннона, відмітка AML Kullback & Leibler 1951 року є джерелом поточного використання цього терміна. Що стосується походження терміна "перехресна ентропія", що стосується штучних нейронних мереж, то існує термін, використаний у статті в Science, поданій 1994 р., Опублікованій 1995 р., Дж. Хінтоном, П. Дайяном, Б. Дж. Фреєм та Р. М. Нілом, в що є раннє використання терміна "машина Hemholtz" - можливо, перший. URL для копіювання: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf У цьому документі "Алгоритм пробудження сну для некерованих нейронних мереж" в примітці до рівняння №5 зазначається: "Коли існує багато альтернативних способів опису вхідного вектора, можна створити схему стохастичного кодування, яка використовує переваги ентропія в альтернативних описах [1]. Потім вартість: "(див. папір для рівняння № 5)" Другий член - це ентропія розподілу, яку ваги розпізнавання присвоюють різним альтернативним уявленням. " Пізніше в статті рівняння №5 переписується як рівняння №8, останній член описується як розбіжність Кульбека-Лейблера між початковим розподілом ймовірності та заднім розподілом ймовірностей. У статті зазначено: "Отже, для двох генеративних моделей, які задають рівну ймовірність d, ) Цей документ все ще описує процес мінімізації цього конкретного алгоритму як мінімізацію розбіжності Куллбека-Лейблера, але, схоже, він міг би бути там, де термін "ентропія в альтернативних описах" був скорочений до просто "перехресної ентропії". Для числового прикладу перехресної ентропії, використовуючи TensorFlow, див. Публікацію тут, корисно: ) Цей документ все ще описує процес мінімізації цього конкретного алгоритму як мінімізацію розбіжності Куллбека-Лейблера, але, схоже, він міг би бути там, де термін "ентропія в альтернативних описах" був скорочений до просто "перехресної ентропії". Для числового прикладу перехресної ентропії, використовуючи TensorFlow, див. Публікацію тут, корисно: /programming/41990250/what-is-cross-entropy Зауважте, що рішення CE = 0,47965 виводиться просто шляхом взяття природного журналу ймовірності .619. У наведеному вище прикладі використання «одного гарячого» кодування означає, що інші дві початкові та задні ймовірності ігноруються через множення на нульову оцінку початкової ймовірності у підсумовуванні для перехресної ентропії.

— gemesyscanada
джерело

+1 Це може бути правильним. Отже, ви говорите, що 1994 рік - це початок сучасного визначення перехресної ентропії?

— Ніл Г