Чому середньоквадратична помилка є перехресною ентропією між емпіричним розподілом та гауссова модель?


28

У 5.5, « Глибоке навчання» (Ian Goodfellow, Yushua Bengio та Aaron Courville), він стверджує, що

Будь-яка втрата, що складається з негативної логічної ймовірності, є перехресною ентропією між емпіричним розподілом, визначеним навчальним набором, та розподілом ймовірностей, визначеним моделлю. Наприклад, середня помилка у квадраті - це перехресна ентропія між емпіричним розподілом та гауссовою моделлю.

Я не можу зрозуміти, чому вони рівнозначні, і автори не розширюються по суті.

Відповіді:


32

Нехай дані будуть . Напишіть F ( x ) для емпіричного розподілу. За визначенням, для будь-якої функції f ,x=(x1,,xn)F(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Нехай модель має щільність e f ( x ), де f визначено на опорі моделі. TheMef(x)fКрос-ентропії з і М визначається якF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Якщо припустити, що є простим випадковим вибірком, його негативна ймовірність єx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

в силу властивостей логарифмів (вони перетворюють продукти в суми). Вираз - це постійний вираз n разів ( 1 ) . Оскільки функції втрат використовуються в статистиці лише шляхом їх порівняння, це не має значення, що одна є (позитивною) постійною часом інша. Саме в цьому сенсі негативна ймовірність журналу "є" перехресною ентропією у котируванні.(2)n(1)


Потрібно трохи більше фантазії, щоб обгрунтувати друге твердження цитати. Зв'язок із помилкою у квадраті зрозумілий, оскільки для "моделі Гаусса", яка прогнозує значення у точках x , значення f у будь-якій такій точці дорівнюєp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

яка є помилкою у квадраті але змінена на 1 / ( 2 σ 2 ) і зміщена на функцію σ . Один із способів зробити пропозицію правильною - припустити, що вона не вважає σ частиною "моделі" - σ повинна визначатися якось незалежно від даних. У цьому випадку різниці між середніми помилками у квадраті пропорційні різниці між перехресними ентропіями або ймовірностями журналу, тим самим роблячи всі три еквіваленти для цілей примірки моделі.(xp(x))2 1/(2σ2)σσσ

(Однак, як правило, підходить як частина процесу моделювання; в цьому випадку цитата не буде цілком правильною.)σ=σ(x)


1
+1 з двома пропозиціями - може використовувати замість f ( ), щоб уникнути плутанини з F ( ) . Друга більшість оцінок σ 2 буде k n i = 1 ( x i - p ( x i ) ) 2 . Коли ви це підключите і додасте, ви отримаєте - 1g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k). Similar to AIC-type formula...
probabilityislogic

@probabilityislogic I choose the pair F and f because they do represent closely related quantities.
whuber

Привіт, я думаю, що це стосується лише лінійного розподілу. Що стосується нелінійних проблем з розподілом, я думаю, що ми все ще можемо використовувати MSE як функцію витрат, правда?
Лев Лай

5

Для читачів книги «Глибоке навчання» я хотів би додати до чудової прийнятої відповіді, що автори детально пояснюють своє твердження в розділі 5.5.1, а саме Приклад: Лінійна регресія як максимальна ймовірність .

Там вони перераховують саме обмеження, згадані у прийнятій відповіді:

p(y|x)=N(y;y^(x;w),σ2). The function y^(x;w) gives the prediction of the mean of the Gaussian. In this example, we assume that the variance is fixed to some constant σ2 chosen by the user.

Then, they show that the minimization of the MSE corresponds to the Maximum Likelihood Estimate and thus the minimization of the cross-entropy between the empirical distribution and p(y|x).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.