Нехай дані будуть . Напишіть F ( x ) для емпіричного розподілу. За визначенням, для будь-якої функції f ,x=(x1,…,xn)F(x)f
EF(x)[f(X)]=1n∑i=1nf(xi).
Нехай модель має щільність e f ( x ), де f визначено на опорі моделі. TheMef(x)fКрос-ентропії з і М визначається якF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Якщо припустити, що є простим випадковим вибірком, його негативна ймовірність єx
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
в силу властивостей логарифмів (вони перетворюють продукти в суми). Вираз - це постійний вираз n разів ( 1 ) . Оскільки функції втрат використовуються в статистиці лише шляхом їх порівняння, це не має значення, що одна є (позитивною) постійною часом інша. Саме в цьому сенсі негативна ймовірність журналу "є" перехресною ентропією у котируванні.(2)n(1)
Потрібно трохи більше фантазії, щоб обгрунтувати друге твердження цитати. Зв'язок із помилкою у квадраті зрозумілий, оскільки для "моделі Гаусса", яка прогнозує значення у точках x , значення f у будь-якій такій точці дорівнюєp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
яка є помилкою у квадраті але змінена на 1 / ( 2 σ 2 ) і зміщена на функцію σ . Один із способів зробити пропозицію правильною - припустити, що вона не вважає σ частиною "моделі" - σ повинна визначатися якось незалежно від даних. У цьому випадку різниці між середніми помилками у квадраті пропорційні різниці між перехресними ентропіями або ймовірностями журналу, тим самим роблячи всі три еквіваленти для цілей примірки моделі.(x−p(x))2 1/(2σ2)σσσ
(Однак, як правило, підходить як частина процесу моделювання; в цьому випадку цитата не буде цілком правильною.)σ=σ(x)