Помилка перехресної ентропії в нейронних мережах

115

У програмі MNIST for ML початківці визначають перехресну ентропію як

Н_{у^{'}} (у) : = - \sum_{i} у_{i}^{'} журнал (у_{i})

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$

$y_i$ - передбачуване значення ймовірності для класу а - справжня ймовірність для цього класу. $i$ $y_i'$

питання 1

Хіба це не проблема, що (у ) може бути 0? Це означає, що у нас, звичайно, поганий класифікатор. Але подумайте про помилку в нашому наборі даних, наприклад, "очевидний", позначений як . Це просто розбилося б? Чи обрана нами модель (активація softmax в кінці) взагалі ніколи не дає ймовірності 0 для правильного класу? $y_i$ $\log(y_i)$ 13

Питання 2

Я дізнався, що крос-ентропія визначається як

Н_{у^{'}} (у) : = - \sum_{i} (у_{i}^{'} журнал (у_{i}) + (1 - у_{i}^{'}) журнал (1 - у_{i}))

$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

Що правильно? Чи є у вас будь-які посилання на підручник для будь-якої версії? Чим ці функції відрізняються за своїми властивостями (як функції помилок для нейронних мереж)?

machine-learning tensorflow

— Мартін Тома
джерело

Дивіться також: stats.stackexchange.com/questions/80967/…

— Piotr

Дивіться також: Пояснення у блозі Kullback-Leibler Divergence Пояснення .

— Пьотр Мігдал

101

Один із способів інтерпретації перехресної ентропії - це бачити її як (мінус) імовірність журналу для даних $y_i'$ за моделлю $y_i$ .

А саме, припустимо, що у вас є якась фіксована модель (також "гіпотеза"), яка передбачає для $n$ класів $\{1,2,\dots, n\}$ їх гіпотетичні ймовірності виникнення $y_1, y_2,\dots, y_n$ . Припустимо, ви зараз спостерігаєте (насправді) $k_1$ екземпляри класу $1$ , $k_2$ екземпляри класу $2$ , $k_n$ екземпляри класу $n$ тощо. Відповідно до вашої моделі, ймовірність цього трапляється:

П [г а т а | м о г е л] : = у_{1}^{к_{1}} у_{2}^{к_{2}} \dots у_{н}^{к_{н}} .

$P[data|model] := y_1^{k_1}y_2^{k_2}\dots y_n^{k_n}.$ Беручи логарифм і змінюючи знак:

- журнал П [г а т а | м о г е л] = - к_{1} журнал у_{1} - к_{2} журнал у_{2} - \dots - к_{н} журнал у_{н} = - \sum_{i} к_{i} журнал у_{i}

$-\log P[data|model] = -k_1\log y_1 -k_2\log y_2 - \dots -k_n\log y_n = -\sum_i k_i \log y_i$ Якщо тепер розділити праву суму на кількість спостережень

N = k_{1} + k_{2} + \dots + k_{n}

$N = k_1+k_2+\dots+k_n$ і позначити емпіричні ймовірності як

y_{i}^{'} = k_{i} / N

$y_i'=k_i/N$ , ви отримаєте перехресну ентропію:

- \frac{1}{N} журнал П [г а т а | м о г е л] = - \frac{1}{N} \sum_{i} к_{i} журнал у_{i} = - \sum_{i} у_{i}^{'} журнал у_{i} =: Н (у^{'}, у)

$-\frac{1}{N} \log P[data|model] = -\frac{1}{N}\sum_i k_i \log y_i = -\sum_i y_i'\log y_i =: H(y', y)$

Крім того, вірогідність журналу набору даних, що задається моделлю, може трактуватися як міра "довжини кодування" - кількість бітів, які ви очікуєте витратити на кодування цієї інформації, якщо ваша схема кодування буде заснована на вашій гіпотезі.

Це випливає з того факту , що незалежне подія з ймовірністю $y_i$ вимагає , по крайней мере $-\log_2 y_i$ бітів , щоб закодувати його ( в припущенні ефективного кодування), і , отже, вираз

- \sum_{i} у_{i}^{'} {журнал}_{2} у_{i},

$-\sum_i y_i'\log_2 y_i,$ буквально очікуваний довжина кодування, де довжини кодування для подій обчислюються за допомогою "гіпотезованого" розподілу, тоді як очікування приймається за фактичне.

Нарешті, замість того, щоб говорити "міра очікуваної довжини кодування", я дуже люблю використовувати неофіційний термін "міра здивування". Якщо вам потрібно багато бітів, щоб кодувати очікувану подію від розповсюдження, дистрибуція для вас "насправді дивна".

Маючи на увазі цю інтуїцію, відповіді на ваші запитання можна побачити наступним чином:

Питання 1 . Так. Це проблема всякий раз, коли відповідне $y_i'$ є ненульовим одночасно . Це відповідає ситуації, коли ваша модель вважає, що деякий клас має нульову ймовірність виникнення, і все ж клас з’являється в реальності. Як результат, "сюрприз" вашої моделі нескінченно великий: ваша модель не враховувала цю подію і тепер для кодування їй потрібно нескінченно багато біт. Ось чому ви отримуєте нескінченність як свою перехресну ентропію.

Щоб уникнути цієї проблеми, вам потрібно переконатися, що ваша модель не робить неправдивих припущень щодо того, що щось неможливо, хоча це може статися. Насправді люди, як правило, використовують сигмоподібні або «софтмакс» функції своїх гіпотез, достатньо консервативних, щоб залишити хоч якийсь шанс на кожен варіант.

Якщо ви використовуєте якусь іншу модель гіпотези, вам належить регулювати (так званий "гладкий"), щоб він не став гіпотезувати нулі там, де не слід.
Питання 2 . У цій формулі зазвичай передбачається, що $y_i'$ дорівнює $0$ або $1$ , а $y_i$ - гіпотеза ймовірності моделі для відповідного вводу. Якщо ви придивитесь уважніше, то побачите, що це просто $-\log P[data|model]$ для двійкових даних, еквівалент другого рівняння у цій відповіді.

Отже, строго кажучи, хоча це все ще ймовірність журналу, це не є синтаксично рівнозначним крос-ентропії. Що деякі люди мають на увазі під посиланням на такий вираз, як крос-ентропія, це те, що насправді це сума над бінарними перехресними ентропіями для окремих точок набору даних:
$\sum_{i} Н (у_{i}^{'}, у_{i}),$ $\sum_i H(y_i', y_i),$ де $y_i'$ та $y_i$ повинен інтерпретуватися як відповідні бінарними розподілу $(y_i', 1-y_i')$ і $(y_i, 1-y_i)$ .

— КТ.
джерело

1

Чи можете ви надати джерело там, де вони визначають

? Тутвони визначають його як дистрибутив із гарячою мірою поточного класу. Яка різниця?

y' i = \frac{k i}{N}

$y′i=\frac{ki}{N}$

— Ленар Хойт

1

У навчальному посібнику MNIST TensorFlow вони також визначають його як у розгалужених векторах.

— Ленар Хойт

@LenarHoyt Коли

,

було б еквівалентно нагрітому. Ви можете думати про гарячу як про кодування одного предмета, виходячи з його емпіричної (реальної) категоричної ймовірності.

N = 1

$N=1$

k_{i} / N

$k_i/N$

— THN

"Незалежна подія вимагає ... щоб кодувати її" - ви могли б пояснити цей біт, будь ласка?

— Олексій

@ Алекс Це може знадобитися довше пояснення, щоб правильно зрозуміти - прочитати про коди Шеннона-Фано та відношення оптимального кодування до рівняння ентропії Шеннона. Щоб придумати речі, якщо подія має ймовірність 1/2, найкраще зробити це кодувати її за допомогою одного біта. Якщо вона має ймовірність 1/4, вам слід витратити 2 біти для її кодування тощо. Загалом, якщо ваш набір подій має ймовірності форми 1/2 ^ k, ви повинні надати їм довжини k - таким чином ваш код наблизитися до оптимальної довжини Шеннона.

— КТ.

22

Перша формула logloss, яку ви використовуєте, стосується втрати журналу багатокласового характеру, де в підписці перераховуються різні класи в прикладі. Формула передбачає, що один в кожному прикладі дорівнює 1, а решта - 0. $i$ $y_i'$

Це означає, що формула фіксує лише помилку в цільовому класі. Він відкидає будь-яке поняття помилок, яке ви можете вважати "хибнопозитивним", і не байдуже, як розподіляються прогнозовані ймовірності, окрім передбачуваної ймовірності істинного класу.

Ще одне припущення - для прогнозів кожного прикладу. Шар softmax робить це автоматично - якщо ви використовуєте щось інше, вам потрібно буде масштабувати результати, щоб задовольнити це обмеження. $\sum_i y_i = 1$

питання 1

Хіба це не проблема, що (в ) може бути 0? $y_i$ $log(y_i)$

Так, це може бути проблемою, але зазвичай це не є практичним. Випадково ініціалізований шар softmax навряд чи може вивести точний 0у будь-якому класі. Але це можливо, тому варто дозволити це. По-перше, не оцінюйте для будь-якого , оскільки негативні класи завжди вносять 0 до помилки. По-друге, у практичному коді ви можете обмежити значення чимось на зразок чисельної стабільності - у багатьох випадках це не потрібно, але це розумне оборонне програмування. $log(y_i)$ $y_i'=0$ log( max( y_predict, 1e-15 ) )

Питання 2

Я дізнався, що перехресна ентропія визначається як $H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)})$

Ця формулювання часто використовується для мережі з одним виходом, що передбачає два класи (як правило, позитивне приналежність до класу для 1 та негативне для 0 виведення). У такому випадку у може бути лише одне значення - ви можете втратити суму понад . $i$ $i$

Якщо ви модифікуєте таку мережу з двома протилежними виходами і використовуєте softmax плюс перше визначення logloss, то ви можете бачити, що насправді це одне і те саме вимірювання помилок, але складання показника помилки для двох класів в один вихід.

Якщо для прогнозування членства існує більше одного класу, а класи не є винятковими, тобто прикладом може бути будь-який або всі класи одночасно, тоді вам потрібно буде використовувати цю другу формулювання. Для розпізнавання цифр це не так (письмова цифра повинна мати лише один "справжній" клас)

— Ніл Слейтер
джерело

Зауважимо, є деяка неоднозначність у викладі другої формули - теоретично це може припускати лише один клас і

тоді

перелічую приклади.

i

$i$

— Ніл Слейтер

Вибачте, я запитав щось інше, ніж те, що я хотів знати. Я не бачу проблеми в

, але у

через

\log (y_{i}) = 0

$\log(y_i) = 0$

y_{i} = 0

$y_i = 0$

. Чи можете ви скоригувати свою відповідь на це?

\log (y_{i})

$\log(y_i)$

— Мартін Тома

@NeilSlater, якщо класи не були взаємовиключними, вихідний вектор для кожного вводу може містити більше 1, чи слід використовувати другу формулу?

— ЗМІ

1

@Media: Не дуже. Хочеш дивитись на такі речі, як ієрархічна класифікація. . .

— Ніл Слейтер

1

@Javi: У запитанні ОП

- це основна істина, тому зазвичай 0 або 1. Саме

є вихідним програмним забезпеченням. Однак

можу закінчити нуль на практиці через округлення з плаваючою точкою. Це насправді відбувається.

y_{i}^{'}

$y'_i$

y_{i}

$y_i$

y_{i}

$y_i$

— Ніл Слейтер

11

Враховуючи , ви хочете оптимізувати свій метод машинного навчання, щоб максимально наблизити до . $y_{true}$ $y_{predict}$ $y_{true}$

Перше питання:

Вищенаведена відповідь пояснила передумови вашої першої формули, поперечної ентропії, визначеної в теорії інформації.

З думки, відмінної від теорії інформації:

ви можете перевірити себе, що перша формула не має покарання за хибну позитивність (правда неправда, але ваша модель передбачає, що вона правильна), а друга - кара за помилкову позитивність. Отже, вибір першої формули чи другої вплине на ваші показники (так же, яку статистичну кількість ви б хотіли використати для оцінки вашої моделі).

У словниковому слові:

Якщо ви хочете прийняти майже всіх хороших людей, щоб бути вашим другом, але готові прийняти деяких поганих людей, стали вашим другом, тоді використовуйте першу формулу критерію.

Якщо ви хочете покарати себе за те, що ви сприймаєте поганих людей за свого друга, але в той же час, коли сприйняття добрих людей може бути нижчим за перше, тоді використовуйте другу формулу.

Хоча, мабуть, більшість із нас критично важливі і хотіли б вибрати другий (тому багато пакетів МЛ припускають, що таке перехресна ентропія).

Друге питання:

Перехресна ентропія на зразок кожного класу:

- y_{t r u e} \log (y_{p r e d i c t})

$-y_{true}\log{(y_{predict})}$

Перехресна ентропія для цілих наборів даних цілих класів:

\sum_{i}^{n} \sum_{k}^{K} - y_{t r u e}^{(k)} \log (y_{p r e d i c t}^{(k)})

$\sum_i^n \sum_k^K -y_{true}^{(k)}\log{(y_{predict}^{(k)})}$

Таким чином, коли є лише два класи (K = 2), у вас буде друга формула.

— Штучний інтелект
джерело

5

Ці питання вирішуються використанням підручника в роботі програмного забезпечення.

Для 1) ви правильно, що softmax гарантує ненульовий вихід, тому що він виражає вхід. Для активацій, які не дають такої гарантії (як, наприклад, relu), просто додати дуже маленький позитивний термін до кожного результату, щоб уникнути цієї проблеми.

Що стосується 2), вони, очевидно, не такі, але я формулю softmax, який вони дали, опікується проблемою. Якщо ви не використовували softmax, це призведе до того, що ви дізнаєтесь величезних термінів упередженості, які вгадують 1 для кожного класу для будь-якого введення. Але оскільки вони нормалізують софтмакс для всіх класів, єдиний спосіб максимізувати вихід правильного класу - це він бути великим щодо неправильних класів.

— jamesmf
джерело

"ви вірні, що softmax гарантує ненульовий вихід" - я знаю, що це теоретично так. Насправді, чи може статися так, що (через числові питання) це стає 0?

— Мартін Тома

Гарне питання. Я припускаю, що цілком можливо для функції експоненції вивести 0,0, якщо ваш вхід занадто малий для точності вашого поплавця. Однак я думаю, що більшість реалізацій додають крихітний позитивний термін, щоб гарантувати ненульовий ввід.

— jamesmf

0

$y_i$ $\log(y_i)$

$\log(0)$ $\log(y_i + \epsilon)$

$H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i)$
$H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log(1-y_i)})$

(а) є правильним для багатокласного передбачення (це насправді подвійне підсумовування), (б) є таким же, як (а) для двокласного прогнозування. Обидва є перехресною ентропією.

Приклад:

$x_i$ $c_i' \in \{0, 1\}$ $c_i \in [0, 1]$

$c_i'$ $c_i$

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$

$y_i'$ $y_i$

$y_{ik}':=1$ $c_i'=k$ $:=0$
$y_{ik}:=p(k|x_i)$ $x_i$ $k$

$(y_i', y_i)$

$(y_i', y_i)=\{([1, 0], [0.9, 0.1]),$ $([1, 0], [0.6, 0.4]),$ $([1, 0], [0.2, 0.8]),$ $([0, 1], [0.2, 0.8]),$ $([0, 1], [0.8, 0.2])\}$

Обидва (a) та (b) обчислюються як:

$H_{y'}(y)=-1/5([log(0.9)+log(0.6) + log(0.2)]_{c_i=0} + [log(0.8) + log(0.2)]_{c_i=1}) = 0.352$

Виведення:

$1$ $K$
$(x_i, c_i')$ $c_i' = k$ $y_i'=[0,..,1,0,..]$ $k^{th}$ $y_{ik}'=1$ $y_{ik}=p(k|x_i)$ $(x_i, k)$ $-log(y_{ik})$ $y_{ik} \rightarrow 1 \Rightarrow -log(y_{ik}) \rightarrow 0$

$L(y_i', y_i) = -\sum_{k=1}^{K}y_{ik}'log(y_{ik})$

$y_{ik}' = 1$ $k' \neq k$ $0log(y_{ik'})=0$ $y_{im}'=1$

$L(y_i', y_i)=-log(y_{im})$

Остаточна формула для всіх навчальних балів:

$H_{y'}(y)=-\sum_{(x_i, y_i')}\sum_{k=1}^{K}y_{ik}'log(y_{ik})$

$y_{i0}' = 1 - y_{i1}'$ $y_{i0} = 1 - y_{i1}$

$\begin{align*} H_{y'}(y)&=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+y_{i0}'log(y_{i0})\\ &=-\sum_{(x_i, y_i')}y_{i1}'log(y_{i1})+(1-y_{i1}')log(1-y_{i1}) \end{align*}$

що те саме, що (b).

Перехресна ентропія (а) над класами (одна сумація)

Перехресна ентропія (а) над класами:

$H_{y'}(y)=-\sum_{k=1}^{K}y_{k}'log(y_{k})$

Цю версію не можна використовувати для завдання класифікації. Дозволяє повторно використовувати дані з попереднього прикладу:

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, 0.8), (1, 0.8), (1, 0.2)\}$

$y'_0 = 3/5 = 0.6$ $y'_1 = 0.4$

$y_0 = 3/5 = 0.6$ $y_1 = 0.4$

$-y'_0logy_0 - y'_1logy_1 = - 0.6log(0.6) -0.4log(0.4) = 0.292$

$(0, 0.8)$ $(1, 0.2)$ $y'_0$ $y'_1$

$(c_i', c_i)=\{(0, 0.1), (0, 0.4), (0, \color{blue}{0.2}), (1, 0.8), (1, \color{blue}{0.8})\}$

$y'_0$ $y_0=3/5$

— Есмалійський
джерело