Не посилаючись на джерела, Вікіпедія визначає перехресну ентропію дискретних розподілів і мають бути
Хто перший почав вживати цю кількість? А хто винайшов цей термін? Я заглянув:
JE Shore та RW Johnson, "Аксіоматичне виведення принципу максимальної ентропії та принципу мінімальної крос-ентропії", "Інформаційна теорія, IEEE Transaction on, vol. 26, ні. 1, с. 26-37, січень 1980.
Я стежив за їх вступом до
А. Верль, "Загальні властивості ентропії", Огляди сучасної фізики, т. 50, ні. 2, С. 221-260, квітня 1978.
який ніколи не вживає цього терміна.
Нічого не робить
С. Куллбек та Р. Лейблер, "Про інформацію та достатність", "Анали математичної статистики", т. 22, ні. 1, С. 79-86, 1951.
Я зазирнув
TM Cover і JA Thomas, елементи інформаційної теорії (серія Wiley в галузі телекомунікацій та обробки сигналів). Wiley-Interscience, 2006.
і
І. Добре, "Максимальна ентропія для складання гіпотез, особливо для багатовимірних таблиць на випадок надзвичайних ситуацій", Анали математичної статистики, т. 34, ні. 3, ф. 911-934, 1963.
але обидва документи визначають перехресну ентропію як синонім KL-дивергенції.
Оригінальний папір
С. Шеннон, "Математична теорія комунікацій", Технічний журнал системи Белл, т. 27, 1948.
Не згадує перехресну ентропію (і має дивне визначення "відносної ентропії": "Відношення ентропії джерела до максимального значення, яке воно могло мати, поки все ще обмежене одними і тими ж символами").
Нарешті я заглянув у старі книги та папери Трибуса.
Хтось знає, як називається рівняння вище, і хто його вигадав, або має його приємне уявлення?