Розглянемо байєсівську задню . Асимптотично, його максимум відбувається при оцінці MLE , що просто збільшує ймовірність .
Усі ці поняття - байесівські пріори, що збільшують ймовірність - звучать супер принципово і зовсім не довільно. Не видно колоди.
Однак MLE мінімізує розбіжність KL між реальним розподілом та f_ \ theta (x) , тобто мінімізує
Вуа - звідки взялися ці колоди? Чому, зокрема, розбіжність KL?
Чому, наприклад, мінімізація різної дивергенції не відповідає над принциповим і мотивованим концепціям байєсівських плакатів і максимізує ймовірність вище?
Здається, у цьому контексті є щось особливе щодо розбіжності та / або журналів KL. Звичайно, ми можемо кинути руки в повітря і сказати, що саме так математика. Але я підозрюю, що може виявитись якась глибша інтуїція чи зв'язки.