Я розумію , що даний набір незалежних спостережень максимального правдоподібності оцінювач (або, що еквівалентно, карта з плоскою / рівномірної до) , який ідентифікує параметрів , які виробляють розподіл моделі що найкраще відповідає цим спостереженням
або, що зручніше
і подивіться роль, яку може відіграти при визначенні функції втрат для багатокласних нейронних мереж, в якій відповідає досяжним параметрам мережі (наприклад, а спостереження - пари активацій вводу та відповідні правильні мітки класів , = { }, взявши
Я не розумію, як це стосується так званої "перехресної ентропії" (векторизованого) правильного виводу, та відповідних вихідних активацій мережі , який використовується на практиці при вимірюванні помилки / втрати під час тренування . Є кілька суміжних питань:
Активації "як ймовірності"
Одним із кроків у встановленні зв’язку між MLE та перехресною ентропією є використання вихідних активацій "як би" вони є ймовірностями. Але мені незрозуміло, що вони є, або принаймні, що вони є.
При обчисленні помилки тренінгу, зокрема, називаючи це "перехресною втратою ентропії", - передбачається, що (після нормалізації активації необхідно скласти суму до 1)
або
щоб ми могли писати
і, таким чином
Але хоча це, безумовно, робить ймовірністю (наскільки це все є), це не встановлює обмежень щодо інших активацій.
Чи можна насправді вважається PMFs у цьому випадку? Чи є щось, що робить насправді не ймовірними (а просто "люблять" їх) )?
Обмеження до категоризації
Найважливіший крок вище у зрівнянні MLE з крос-ентропією повністю покладається на "гарячу" структуру яка характеризує (однозначну) багатокласну проблему навчання. Будь-яка інша структура для унеможливить з до .
Чи обмежено рівняння MLE та мінімізацію перехресної ентропії лише випадками, коли є "гарячими"?
Різні ймовірності навчання та прогнозування
Під час прогнозування це майже завжди так
що призводить до правильних імовірностей прогнозування, що відрізняються від ймовірностей, засвоєних під час тренінгу, якщо це точно не так
Це колись надійно так? Це, мабуть, принаймні приблизно правда? Або є якийсь інший аргумент, який обґрунтовує це рівняння значення вивченої активації на позиції мітки з ймовірністю того, що там відбувається максимальне значення вивчених активацій?
Ентропія та теорія інформації
Навіть якщо припустити , що вищевказані проблеми вирішуються і активації поважних Файли PMF (або можуть осмислено розглядатися як такі), так що роль перехресної ентропією в обчисленні є безпроблемним, це не ясно мені, чому корисно чи змістовно говорити про ентропію , оскільки ентропія Шенона застосовується до конкретної вид кодування , який не використовується тим, хто навчається в мережі.
Яку роль відіграє інформаційно-теоретична ентропія в інтерпретації функції витрат, на відміну від просто надання інструменту (у формі перехресної ентропії) для обчислення такої (що відповідає MLE)?
softmax_cross_entropy_with_logits
роблять такі API, як TensorFlow : вони обчислюють і, таким чином, яка визначає мережу, "створену" для отримання ймовірностей (принаймні, у місці розташування мітки). Ні?