Теоретична мотивація використання лого-ймовірності проти ймовірності


18

Я намагаюсь зрозуміти на більш глибокому рівні всюдисутність імовірності логарифма (і, можливо, більш загальної логістичної ймовірності) в статистиці та теорії ймовірностей. Імовірності журналу з'являються всюди: ми зазвичай працюємо з логопедичністю для аналізу (наприклад, для максимізації), інформація про Фішера визначається з точки зору другої похідної вірогідності журналу, ентропія - очікувана вірогідність журналу , Розбіжність Куллбека-Ліблера передбачає ймовірності логарифма, очікуване відхилення - очікувана ймовірність логарифмів тощо.

Зараз я ціную безліч практичних і зручних причин. Багато поширених і корисних pdfs походять із експоненціальних сімей, що призводить до елегантно спрощених термінів при перетворенні журналу. Суми легше працювати, ніж продукти (особливо для розмежування). Журнали мають велику перевагу з плаваючою точкою перед прямими датчиками. Перетворення журналу PDF часто перетворює не увігнуту функцію у увігнуту функцію. Але яка теоретична причина / обґрунтування / мотивація для журналів-проб?

Як приклад мого здивування, розгляньте інформацію про Фішера (FI). Звичайне пояснення для інтуїції FI - це те, що друга похідна log-ймовірності говорить нам про те, як "пік" є подібність до журналу: високо пікова ймовірність log означає, що MLE є точно визначеною, і ми відносно впевнені в її значенні , в той час як майже рівна схожість журналу (низька кривизна) означає, що багато різних параметрів є настільки ж хорошими (з точки зору ймовірності журналу), як і MLE, тому наш MLE є більш невизначеним.

Це все добре і добре, але хіба не природніше просто знайти кривизну самої функції ймовірності (НЕ перетворену в журнал)? На перший погляд наголос на перетворенні журналу здається довільним і неправильним. Звичайно, нас більше цікавить викривлення фактичної функції ймовірності. Якою була мотивація Фішера до роботи з функцією зарахування, а натомість гессіаном вірогідності журналу?

Чи є відповідь просто тим, що, врешті-решт, ми маємо хороші результати з асимптотики журналу ймовірності? Наприклад, Cramer-Rao та нормальність MLE / задній. Або є глибша причина?


2
Я задав подібне запитання тут
Haitao Du

Відповіді:


13

Це дійсно просто зручність для логопедичності, нічого більше.

Я маю на увазі зручність сум по відношенню до продуктів: , з цими сумами простіше розібратися в багатьох аспектах, таких як диференціація чи інтеграція. Я намагаюся сказати, що це не зручність лише для експоненціальних сімей.ln(ixi)=ilnxi

Коли ви маєте справу зі випадковою вибіркою, ймовірності мають форму: , тому ймовірність логгіки розбила б цей продукт на суму, що легше маніпулювати та аналізувати. Це допомагає, що все, що нас хвилює, - це точка максимуму, значення на максимумі не важливо, тому ми можемо застосувати будь-яке монотонне перетворення, наприклад логарифм.L=ipi

На кривизну інтуїція. Зрештою, це те саме, що і в кінці другого похідного від логічності.

ОНОВЛЕННЯ: Це те, що я мав на увазі під кривизною. Якщо у вас функція , то її кривизна буде ( див. (14) на Wolfram): κ = f ( x )y=f(x)

κ=f(x)(1+f(x)2)3/2

Друга похідна ймовірності журналу:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

У точці максимуму перша похідна, очевидно, дорівнює нулю, тому ми отримуємо: Отже, мій зворот, що кривизна ймовірності а друга похідна від логотипності - це те саме, що таке.

κmax=f(xmax)=Af(xmax)

З іншого боку, якщо перша похідна ймовірності мала не тільки в точці максимуму, а й навколо точки максимуму, тобто функція ймовірності є плоскою, то отримуємо: Тепер плоска ймовірність це не дуже добре для нас, тому що робить знаходження максимуму важче числовим, а максимальна ймовірність не настільки краща, ніж інші точки навколо нього, тобто помилки в оцінці параметрів високі.

κf(x)Af(x)

І знову: ми все ще маємо співвідношення кривизни та другої похідної. То чому Фішер не подивився на викривлення функції ймовірності? Я думаю, що це з тієї ж причини зручності. Простіше маніпулювати імовірністю логгінгу через суму замість продукту. Таким чином, він міг вивчити кривизну ймовірності, проаналізувавши другу похідну логгієстичності. Хоча рівняння виглядає дуже простим для кривизни , насправді ви берете другу похідну добутку, яка є меншою, ніж сума другої похідної.κmax=f(xmax)

ОНОВЛЕННЯ 2:

Ось демонстрація. Я намалював (повністю складену) функцію ймовірності, її а) кривизну і б) 2-ю похідної її журналу. На лівій стороні ви бачите вузьку вірогідність, а на правій - широку. Ви бачите, як у точці максимальної ймовірності а) та б) сходяться, як слід. Що ще важливіше, ви можете вивчити ширину (або площинність) функції ймовірності, вивчивши 2-ю похідну її лого-ймовірності. Як я писав раніше, останній технічно простіше, ніж перший для аналізу.

Не дивно, що глибше 2-го похідна сигналів вірогідності логістично функціонує вірогідність своєї максимуму, що не бажано, оскільки це призводить до більшої похибки оцінки параметрів.

введіть тут опис зображення

Код MATLAB у випадку, якщо ви хочете відтворити сюжети:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

ОНОВЛЕННЯ 3:

У наведеному вище коді я включив деяку довільну функцію дзвоникової форми в рівняння кривизни, потім обчислив другу похідну її журналу. Я нічого не переосмислював, значення прямі з рівнянь, щоб показати еквівалентність, про яку я згадував раніше.

Ось найперший документ про ймовірність, який Фішер опублікував ще в університеті, "Про абсолютний критерій підгонки частотних кривих", "Месенджер математики", 41: 155-160 (1912)

logP=1nlogp

logP=logfdx
P

Одне, що слід зазначити, читаючи статтю, він починав лише з максимальної роботи з оцінки ймовірності, і зробив більше роботи протягом наступних 10 років, так що навіть термін MLE ще не був придуманий, наскільки я знаю.


5
Ваше останнє речення (про викривлення) натякає на справді щось принципове щодо ймовірності колоди і те, що робити журнали - це не просто «зручність». Я вірю, що тут відбувається набагато більше, ніж ви даєте.
whuber

2
Ваше обговорення кривизни не здається актуальним, оскільки це не відрізняє аналіз ймовірності колоди від аналізу самої ймовірності. Ця відповідь, схоже, зводиться до "журналів зручно", але питання є набагато більше, ніж це, як починають пропонувати інші відповіді.
whuber

f(xmax)f(xmax)=1

Тому використання ймовірності журналу для інформації Фішера, очевидно, служить двом практичним цілям: (1) з імовірністю журналу легше працювати, і (2) він, природно, ігнорує довільний масштабуючий коефіцієнт. І це дає ту саму відповідь, що й 2-е похідне прямої ймовірності. Це здається мені важливим моментом, який не був очевидним і якого я жодного разу не бачив заявленого в жодному тексті статистики. Імовірно, це було відомо Фішеру.
ratsalad

f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
f(xmax)=(lnf(x))

5

Додатковий пункт . Деякі з часто використовуваних розподілів ймовірностей (включаючи звичайний розподіл, експоненціальний розподіл, розподіл Лапласа, лише декілька) є логічно увігнутими . Це означає, що їх логарифм увігнутий. Це робить максимізацію ймовірності журналу набагато простішою, ніж максимізацію вихідної ймовірності (що особливо зручно при максимальній ймовірності або максимальних методах a-posteriori). Для прикладу використання методу Ньютона для максимізації багатоваріантного гауссового розподілу безпосередньо може знадобитися велика кількість кроків, тоді як максимізація параболоїда (журнал багатофакторного гауссового розподілу) займає рівно один крок.


2
Не так швидко. Дивіться вправу 7.4 на стор. 393-394 веб-сайту web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
Марк Л. Стоун

Це не ввігнуте колоди. Гауссова є увігнутим wrt до свого аргументу або до середнього параметра, а також не wrt для дисперсії. Якщо ви також хочете визначити масштаб, ви можете використовувати нормальний гамма-розподіл, який також є увігнутим (використовуючи точність замість дисперсії).
Лука Citi

2
Саме це. Усі розмови про те, як зручніше журнали, приємні, але опуклість (або увігнутість, залежно від точки зору) - це те, що насправді відрізняє вірогідність журналу як "правильну" річ, з якою потрібно працювати.
Мені Розенфельд

2
Зауважимо, що я вже згадував часові увігнутість в ОП. Але це все-таки лише «зручність», тут немає теоретичного обґрунтування для увігнутості журналу, і в будь-якому випадку ймовірність зрубу не є ввігнутою.
ratsalad

1
@ratsalad, так, ви праві, це зручність. Я думаю, що ймовірності журналу - це додатковий спосіб переглянути функцію ймовірності. Я не можу сказати точно, хто з них кращий. Якщо ви подивитесь на [ en.wikipedia.org/wiki/… заходи), деякі ефективно працюють на ймовірність журналу (наприклад, дивергенція KL, яка фактично є очікуваною величиною різниці логістичних ймовірностей), а деякі на ймовірність безпосередньо ( наприклад відстань KS).
Лука Сіті

4

Теоретичне значення логістичної ймовірності можна побачити (принаймні) з двох позицій: асимптотичної теорії ймовірності та теорії інформації.

Більш рання з них (я вважаю) - це асимптотика теорії вірогідності. Я думаю, що теорія інформації почала розвиватися після того, як Фішер встановив максимальну ймовірність свого шляху до домінування 20 століття.

У теорії ймовірності центральне місце у виводі має центральна параболічна ймовірність. Люсьєн Ле Кам відіграв важливу роль у з'ясуванні важливості ймовірності квадратичного зрубу в асимптотичній теорії.

Коли у вас є ймовірність квадратичного журналу, кривина навколо MLE не лише якісно говорить вам про те, як точно ви можете оцінити параметр, але ми також знаємо, що помилка зазвичай розподіляється з відхиленням, рівним зворотному вигину. Коли ймовірність журналу приблизно квадратична, то ми говоримо, що ці результати дотримуються приблизно або асимптотично.

Друга причина - поширеність імовірності журналу (або ймовірності журналу) в теорії інформації , де це основна кількість, що використовується для вимірювання змісту інформації.

ggf(θ)f(θ^)θ^

lnL^

Отже, ймовірність журналу, крім корисної чисельної трансформації, має глибокі зв’язки з теорією висновку та інформації.


Ваше посилання на використання теорією інформації логістичних імовірностей є круговою. Для чого вони використовують журнал? Можливо, з тієї ж причини, особливо якщо врахувати, що теорія інформації є порівняно новою сферою порівняно зі статистикою.
Аксакал

@Aksakal так і ні. Інформаційна теорія отримала основи частково від статистичної механіки та ентропії: en.wikipedia.org/wiki/Entropy . Больцман визначив ентропію системи, використовуючи журнал кількості мікростатів. Чому журнали? Тому що це робить ентропію / інформаційну добавку (як вказує ваша відповідь)? І що? На числовому рівні лінійність / аддиктивність відкриває використання потужних методів лінійної алгебри.

1
@Aksakal, однак, на більш фундаментальному рівні аддиктивність перетворює ентропію / інформацію в щось на зразок міри ... схожої на масу. Якщо об'єднати дві статистично незалежні системи, то ентропія об'єднаної системи є сумою ентропії кожної системи. Ось приємний пояснювач: physics.stackexchange.com/questions/240636/…

1
@ Bee Термодинамічна статистична ентропія насправді випливає безпосередньо з розподілу мікростатів Больцмана і класичного макроскопічного термо (форма статичної ентропії не була «вибором»). Розподіл Больцмана є наслідком двох передумов: (1) фізична властивість, що енергії задаються лише до довільної постійної адиції та (2) припущення про фундаментальну статистику, що всі мікростати з однаковою енергією мають однакову ймовірність. Так, на найглибшому рівні термоентропія включає в себе логі-проби, оскільки енергія є адитивною і пропорційною лог-зонду.
ratsalad

2
@ratsalad дякую за розширення цього питання ... як ви бачите, вийти за рамки простих "журналів простіше", пояснення імовірності журналу можуть зайняти одне досить далеко. Я використовую ймовірність журналу з причин, які дає Аксакал ... однак, ваш ОП попросив щось глибше. Я навів два приклади, які показують зв’язки з іншими сферами, які вплинули на статистику та теорію ймовірності. Я думаю, що асимптотичні пояснення є більш прямими, але ентропія та ймовірність пов'язані між собою так, що робить логотипні ймовірності те, що нас цікавить, крім простого числового зручності.

0

TLDR: Отримати суми набагато простіше, ніж продукти, оскільки оператор похідних лінійний з підсумовуванням, але з продуктом u повинен виконувати правило продукту. Це лінійна складність проти деякої поліноміальної складності вищого порядку


3
Це те, що питання означає «зручне та практичне». Це далеко не єдина, а то й головна причина, чому аналіз зосереджується на вірогідності журналу. Розглянемо, наприклад, як би виглядав вираз для інформації про Фішера з точки зору ймовірності, а не вірогідності журналу.
whuber

так точно; Я думаю, коли він сказав, що це "простіше" знайти його безпосередньо, я подумав, що він має на увазі протилежне цьому, оскільки це, безумовно, простіше знайти після того, як ми застосуємо перетворення журналу.
Чарлі Тянь
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.