Чому існує дві різні логістичні формулювання втрат / позначень?


23

Я бачив два типи формулювання логістичних втрат. Ми можемо легко показати, що вони однакові, єдиною різницею є визначення мітки y .

Формулювання / позначення 1, y{0,+1} :

L(y,βTx)=ylog(p)(1y)log(1p)

де p=11+exp(βTx) , де логістична функція відображає дійсне числоβTxна 0,1 інтервал.

Формулювання / позначення 2, y{1,+1} :

L(y,βTx)=log(1+exp(yβTx))

Вибір нотації - це як вибір мови, є плюси і мінуси використання тієї чи іншої. Які плюси і мінуси цих двох позначень?


Мої спроби відповісти на це питання полягають у тому, що, схоже, статистиці спільнота сподобається перша нотація, а спільноті інформатики подобається друга.

  • Спочатку позначення можна пояснити терміном "ймовірність", оскільки логістична функція перетворює дійсне число βTx в інтервал 0,1.
  • А друге позначення є більш коротким і його легше порівняти з втратою шарніру або втратою 0-1.

Чи правий я? Будь-які інші відомості?


4
Я впевнений, що про це, мабуть, вже задавали кілька разів. Наприклад, stats.stackexchange.com/q/145147/5739
StasK

1
Чому, на вашу думку, друге позначення легше порівняти зі втратою шарніра? Просто тому, що він визначений на {1,1} замість {0,1} чи щось інше?
тіньтекер

1
Мені якось подобається симетрія першої форми, але лінійна частина заглиблена досить глибоко, тому з нею можна важко працювати.
Меттью Друрі

@ssdecontrol, будь ласка, перевірте цю цифру, cs.cmu.edu/~yandongl/loss.html, де вісь x yβTx , а вісь y - значення втрат. Таке визначення зручно порівнювати з втратою 01, втратою шарніру тощо
Хайтао Ду

Відповіді:


12

Коротка версія

  • Так
  • Так

Довга версія

Приємне в математичному моделюванні полягає в тому, що воно гнучко. Це дійсно еквівалентні функції втрат, але вони походять від дуже різних базових моделей даних.

Формула 1

Перше позначення походить від моделі ймовірності Бернуллі для , яка умовно визначена на { 0 , 1 } . У цій моделі результат / етикетка / клас / прогнозування представлений випадковою змінною Y, яка слідує за розподілом B e r n o u l l i ( p ) . Тому його ймовірність така: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

для . Використання 0 і 1 як значень індикатора дозволяє зменшити кусочну функцію в крайньому правому куті до стислого виразу.p[0,1]

Як ви вже вказували, ви можете зв'язати з матрицею вхідних даних x , дозволяючи logit p = β T x . Звідси пряма алгебраїчна маніпуляція виявляє, що журнал L ( p ; y ) такий же, як перший L ( y , β T x ) у вашому запитанні (підказка: ( y - 1 ) = - ( 1 - y ) ). Таким чином, мінімізуючи втрати журналу понад { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) еквівалентно максимальній оцінці вірогідності моделі Бернуллі.{0,1}

Ця формулювання також є окремим випадком узагальненої лінійної моделі , яка формулюється як для оборотної, диференційованої функції g та розподілу D у експонентній родині .YD(θ), g(Y)=βTxgD

Формула 2

y{1,1}

max({0,1yβTx})+λβ2.

(y,β)+λβ2
λβL(y,βTx)

py(1p)1y1y

7

Я думаю, що у @ssdecontrol була дуже гарна відповідь. Я просто хочу додати кілька коментарів до формули 2 до власного питання.

L(y,y^)=log(1+exp(yy^))

Причина, якою люблять цю формулювання, полягає в тому, що вона дуже лаконічна, і вона видаляє "деталі ймовірності інтерпретації".

y^yy^

Але без цих деталей є добрими з точки зору, ми можемо легко порівняти його з іншими втратами класифікації, такими як втрата 01 або втрата шарніру.

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

enter image description here

Here we plot three loss functions, x axis is yy^ and y axis is the loss value. Note, in all above formulas y^ is a real number, and this number can come from linear form βTx or other forms. Such notation hides probability details.


I see what you mean about easy comparison
shadowtalker
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.