Що означає "ймовірність визначена лише до мультиплікативної константи пропорційності"?


19

Я читаю документ, де автори ведуть з обговорення максимальної оцінки ймовірності до теореми Байєса, нібито як вступу для початківців.

Як імовірний приклад, вони починаються з біноміального розподілу:

p(x|n,θ)=(nx)θx(1θ)nx

а потім запишіть обидві сторони

(θ|x,n)=xln(θ)+(nx)ln(1θ)

з обґрунтуванням, що:

"Оскільки ймовірність визначається лише до мультиплікативної константи пропорційності (або константи адиції для логотипної ймовірності), ми можемо змінити масштаб ..., скинувши біноміальний коефіцієнт і записавши ймовірність журналу замість вірогідності"

Математика має сенс, але я не можу зрозуміти, що означає "ймовірність визначається лише до мультиплікативної константи пропорційності", і як це дозволяє скинути біноміальний коефіцієнт і перейти від до .p(x|n,θ)(θ|x,n)

Аналогічна термінологія виникла і в інших питаннях ( тут і тут ), але досі не зрозуміло, яка, практично, ймовірність визначається чи доводиться інформація до мультиплікативних постійних засобів. Чи можливо це пояснити мирянином?

Відповіді:


18

Справа в тому, що іноді різні моделі (для одних і тих же даних) можуть призводити до імовірнісних функцій, які відрізняються мультиплікативною константою, але зміст інформації повинен бути однозначним. Приклад:

Ми моделюємо n незалежних експериментів Бернуллі, що призводять до даних X1,,Xn , кожен з розподілом Бернуллі з параметром (ймовірність) p . Це призводить до функції ймовірності

i=1npxi(1p)1xi
Або ми можемо узагальнити дані за біноміально розподіленою змінною Y=X1+X2++Xn, що має біноміальне розподіл, що веде до ймовірності функції
(ny)py(1p)ny
який як функція невідомого параметраpпропорційний колишній функції ймовірності. Дві функції ймовірності чітко містять однакову інформацію і повинні вести до однакових висновків!

І дійсно, за визначенням вони вважаються тією ж функцією вірогідності.

Інша точка зору: зауважте, що коли ймовірнісні функції використовуються в теоремі Байєса, як це потрібно для байєсівського аналізу, такі мультиплікативні константи просто скасовуються! тому вони явно не мають значення для байєсівського умовиводу. Так само воно скасується при обчисленні коефіцієнтів імовірності, як це використовується в тестах на оптимальні гіпотези (лемма Неймана-Пірсона.) І не матиме впливу на значення оцінок максимальної вірогідності. Тож ми можемо бачити, що в більшості частофілістських висновків це не може грати ролі.

Ми можемо сперечатися з іншої точки зору. Функція ймовірності Бернуллі (далі ми використовуємо термін "щільність") вище - це дійсно щільність щодо міри підрахунку, тобто міра на невід'ємні цілі числа з масою одиниці для кожного невід'ємного цілого числа. Але ми могли б визначити щільність щодо якоїсь іншої домінуючої міри. У цьому прикладі це буде здаватися штучним, але у великих просторах (функціональних просторах) воно справді принципово! Давайте, для цілей ілюстрації, використовувати конкретний геометричний розподіл, написаний λ , з λ(0)=1/2 , λ(1)=1/4, λ(2)=1/8 і так далі. Тоді щільність розподілу Бернуллі по відношенню до λ задається

fλ(x)=px(1p)1x2x+1
сенс , що
P(X=x)=fλ(x)λ(x)
З цією новою, домінуючою мірою функцією ймовірності стає (з позначенням зверху)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
відзначте додатковий коефіцієнт 2y+n. Отже, при зміні домінуючої міри, що використовується у визначенні функції ймовірності, виникає нова мультипликативна константа, яка не залежить від невідомого параметра p , і явно не має значення. Це ще один спосіб зрозуміти, як мультиплікативні константи повинні бути неактуальними. Цей аргумент можна узагальнити за допомогою похідних Радона-Нікодима (як наведений вище аргумент - приклад.)


"інформаційний зміст повинен бути чітко однаковий" Це справедливо лише в тому випадку, якщо ви вірите в принцип ймовірності!
jsk

Так, можливо, але я показав, як це випливає з байєсівських принципів.
kjetil b halvorsen

@kjetilbhalvorsen Дякую за продуману відповідь! Я все ще плутаю, чому ймовірність розподілу Бернуллі не включає біноміальний коефіцієнт. Ваша відповідь дає зрозуміти, чому це не має значення, але я не розумію, чому це в першу чергу відсторонено.
jvans

@jvans: Це тому, що біноміальний коефіцієнт не залежить від невідомого параметра, тому не може впливати на форму функції ймовірності
kjetil b halvorsen

12

Це в основному означає, що має значення лише відносне значення PDF. Наприклад, стандартний звичайний PDF (гауссова) PDF: , ваша книга говоритьщо вони могли б використовуватиг(х)=е-х2/2замість цього, тому що вони не піклуються про масштаб, тобтоз=1f(x)=12πex2/2g(x)=ex2/2 .c=12π

Це відбувається тому, що вони максимізують функцію вірогідності, і і g ( x ) матимуть однаковий максимум. Отже, максимум е - х 2 / 2 буде такою ж , як F ( х ) . Отже, вони не турбуються про масштаб.cg(x)g(x)ex2/2f(x)


6

Я не можу пояснити сенс цитати, але для максимального правдоподібності оцінки, це не має значення , вибираємо ми знайти максимум правдоподібності функції (розглянуту як функцію & thetas або максимум в L ( x ; θ ) де a деяка константа. Це тому, що нас не цікавить максимальне значення L ( x ; θ ), а більше значення θ ML, де цей максимум має місце, і обидва L ( xL(x;θ)θaL(x;θ)aL(x;θ)θML і л ( х ; θ ) досягає свою максимальну величину при тій же & thetas ML . Отже, мультиплікативні константи можна ігнорувати. Аналогічно, ми могли б вибрати будь-яку монотонну функцію g ( ) (наприклад, логарифм) функції ймовірності L ( x ; θ ) , визначити максимум g ( L ( x ; θ ) ) і зробити висновок про значення θ MLL(x;θ)aL(x;θ)θMLg()L(x;θ)g(L(x;θ))θMLвід цього. Для логарифму множинна константа стає адитивною константою ln ( a ) і це теж можна ігнорувати в процесі пошуку місця максимуму: ln ( a ) + ln ( L ( x ; θ ) максимізовано на таку ж точку, що і ln ( L ( x ; θ ) .aln(a)ln(a)+ln(L(x;θ)ln(L(x;θ)

Якщо перейти до максимальної оцінки апостеріорної ймовірності (MAP), розглядається як реалізація випадкової величини Θ з апріорною функцією густини f Θ ( θ ) , дані x розглядаються як реалізація випадкової величини X та ймовірності функція вважається значення умовної щільності ф X | & thetas ; ( х | & thetas ; = θ ) з х кондиционированной на & thetas ; = θθΘfΘ(θ)xXfXΘ(xΘ=θ)XΘ=θ; згадана функція умовної щільності оцінюється на . Апостеріорна щільність thetas ; є F & thetas | Х ( & thetas ; | х ) = е X | & thetas ; ( х | & thetas ; = & thetas ; ) ф & thetas ; ( & thetas ; )xΘ в якому ми визнаємо чисельник якщільність з'єднанняfX,Θ(x,θ)даних та параметр, що оцінюється. ТочкаθMAP,де fΘX(θx)досягає свого максимального значення, є оцінкою MAPθ, і, використовуючи ті ж аргументи, що і в абзаці, ми бачимо, що ми можемо ігнорувати[fX(x)]-1з правого боку

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1 як мультиплікативна константа так само, як ми можемо ігнорувати мультиплікативні константияк у f XΘ ( xΘ = θ ), так і в f Θ ( θ ) . Аналогічно, коли використовуються ймовірності журналу, ми можемо ігнорувати константи добавок.(1) fXΘ(xΘ=θ)fΘ(θ)

LaLa

5

f(x)kf(x) share the same critical points.


3
So do f(x) and f(x)+2 but they would not be equivalent likelihood functions
Henry

Please, as Alecos Papadopoulos writes in his answer, "the likelihood is first a joint probability density function". Because of the iid assumption for random samples, that joint function is a product of simple density functions, so multiplicative factors do arise, addends do not.
Sergio

1
The joint function is such a product if and only if the data are independent. But MLE extends to dependent variables, so the product argument appears unconvincing.
whuber

1

I would suggest not to drop from sight any constant terms in the likelihood function (i.e. terms that do not include the parameters). In usual circumstances, they do not affect the argmax of the likelihood, as already mentioned. But:

There may be unusual circumstances when you will have to maximize the likelihood subject to a ceiling -and then you should "remember" to include any constants in the calculation of its value.

Also, you may be performing model selection tests for non-nested models, using the value of the likelihood in the process -and since the models are non-nested the two likelihoods will have different constants.

Apart from these, the sentence

"Because the likelihood is only defined up to a multiplicative constant of proportionality (or an additive constant for the log-likelihood)"

is wrong, because the likelihood is first a joint probability density function, not just "any" objective function to be maximized.


3
Hmmm... When wearing a Bayesian hat, I always thought of the likelihood function as the conditional density function of the data given the parameter and not as a joint probability density function. The location of the maximum of the joint probability density of the data and the parameter (regarded as a function of the unknown parameter θ; the data being fixed) gives the maximum a posteriori probability (MAP) estimate of θ, does it not?
Dilip Sarwate

3
I think you need to be a bit more careful with the language. The likelihood is a function of the parameters for a fixed sample, but is equivalent to the joint density over the sample space. That is,
L(θx)=f(xθ).
This will integrate to 1 over the sample space, but is not necessarily 1 when integrated over the parameter space. When you say "the likelihood is a density, viewed as a function of the parameters," that makes it sound as if you mean "density with respect to the parameters," which it isn't.
heropup

1
@heropup I have already wrote that it doesn't necessarily integrate to unity over the parameter space, and so, immediately, it cannot be considered as a "density function" when it is viewed as a "function of the parameters".
Alecos Papadopoulos

1
Yes, I know. My point is that the phrase "The likelihood function is a density function, viewed as a function of the parameters" is itself confusing. It would be more precise to say something like, "The likelihood function is a function of the parameters for a fixed sample, and is equivalent (or proportional) to the joint density over the sample space."
heropup

1
@heropup Your desired statement that "The likelihood function ... is equivalent (or proportional) to the joint density over the sample space" would indeed be much more precise but equally incorrect. The likelihood function is neither equivalent nor proportional to the joint density because the "coefficient of proportionality" is not a constant (unless the prior distribution of the unknown parameter is uniformly distributed over an interval). The joint density is L(xθ)f(θ) where L is the likelihood and f(θ) is the prior distribution of the parameter.
Dilip Sarwate
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.