Як жорстко визначити ймовірність?


30

Ймовірність може бути визначена кількома способами, наприклад:

  • функція від яка відображає на тобто .L ( θ , x ) L ( θ x ) L : Θ × XRLΘ × XΘ×X(θ,x)L(θx)L:Θ×XR

  • випадкова функціяL ( X )L(X)

  • ми також могли б вважати, що ймовірність - це лише "спостережувана" ймовірністьL ( x obs )L(xobs)

  • на практиці ймовірність приносить інформацію про лише до мультиплікативної константи, отже, ми могли б розглядати ймовірність як клас еквівалентності функцій, а не функціюθθ

Інше питання виникає при розгляді зміни параметризації: якщо - це нова параметризація, яку ми зазвичай позначаємо через ймовірність на і це не оцінка попередньої функції у але в . Це образливі, але корисні позначення, які можуть спричинити труднощі для початківців, якщо це не буде наголошено.ϕ = θ 2ϕ=θ2 L ( ϕ x ) L(ϕx)ϕ ϕL ( x ) L(x)θ 2 θ2ϕϕ

Яке ваше улюблене суворе визначення ймовірності?

Крім того, як ви називаєте ? Я зазвичай кажу щось на кшталт "ймовірність на коли спостерігається ".L ( θ x ) L(θx)θ θxx

EDIT: З огляду на деякі коментарі нижче, я розумію, що я повинен був уточнити контекст. Я розглядаю статистичну модель, задану параметричним сімейством густин відносно якоїсь домінуючої міри, з кожним визначений у просторі спостережень . Отже, ми визначаємо і виникає питання "що таке ?" (питання не в загальному визначенні ймовірності){f(θ),θΘ}{f(θ),θΘ}f(θ)f(θ)XXL(θx)=f(xθ)L(θx)=f(xθ)LL


2
(1) Оскільки для всіх , я вважаю, що навіть константа в визначена. (2) Якщо ви вважаєте такі параметри, як та як просто координати для різноманітності розподілів, то зміна параметризації не має внутрішнього математичного значення; це лише зміна опису. (3) Носії англійської мови буде більш природно сказати , «ймовірність того, з » , а не «на» . (4) У пункті "коли спостерігається" є філософські труднощі, оскільки більшість ніколи не буде дотримано. Чому б просто не сказати "вірогідність заданоїL(θ|x)dx=1L(θ|x)dx=1θθLLϕϕθθ θ x x θ xθxxθx "?
whuber

1
@whuber: Для (1) я не думаю, що константа чітко визначена. Дивіться книгу Е. Т. Джейнеса, де він пише: "що ймовірність не є ймовірністю, оскільки її нормалізація є довільною".
Ніл Г

3
Ви, мабуть, плутаєте два види нормалізації, Ніл: Джейнес мав на увазі нормалізацію інтеграцією через θθ , а не xx .
whuber

1
@whuber: Я не думаю, що коефіцієнт масштабування матиме значення для граничного значення Креймера-Рао, оскільки зміна kk додає постійну кількість до ймовірності журналу, яка потім зникає, коли береться часткова похідна.
Ніл Г

1
Я погоджуюся з Нілом, я не бачу жодної програми, в якій константа грає роль
Stéphane Laurent

Відповіді:


13

Третій предмет - це той, кого я бачив найчастіше, використовуючи як суворе визначення.

Інші теж цікаві (+1). Зокрема, перше звертається до уваги, із тим складністю, що розмір вибірки ще не визначений, важче визначити набір "від".

Для мене основна інтуїція ймовірності полягає в тому, що це функція моделі + її параметри, а не функція випадкових змінних (також важливий момент для навчальних цілей). Тож я б дотримувався третього визначення.

Джерелом зловживання позначенням є те, що множина ймовірностей "від" неявна, що зазвичай не відповідає чітко визначеним функціям. Тут найбільш суворим підходом є усвідомлення того, що після трансформації ймовірність стосується іншої моделі. Вона рівнозначна першій, але все ж іншій моделі. Отже, позначення ймовірності повинні показувати, до якої моделі вона посилається (за індексом чи іншою). Я ніколи цього не роблю, звичайно, але для навчання я можу.

Нарешті, щоб відповідати моїм попереднім відповідям, я кажу "ймовірність θ " у вашій останній формулі.θ


Спасибі. А яка ваша порада щодо рівності до мультиплікативної константи?
Стефан Лоран

Особисто я вважаю за краще викликати це, коли це потрібно, а не жорсткий код у визначенні. І подумайте, що для вибору / порівняння моделі ця рівність "до-мультиплікативної-постійної" не дотримується.
gui11aume

Добре. Щодо назви, то можна уявити, що ви обговорюєте про ймовірності L ( θ x 1 ) та L ( θ x 2 ) для двох можливих спостережень. У такому випадку ви б сказали "ймовірність θ, коли спостерігається х 1 ", або "ймовірність θ для спостереження х 1 ", чи щось інше? L(θx1)L(θx2)θx1θx1
Стефан Лоран

1
Якщо ви перепараметризуєте свою модель за допомогою ϕ = θ 2, ви фактично обчислите ймовірність як композицію функцій L ( . | X ) g ( . ), Де g ( y ) = y 2 . У цьому випадку g переходить від R до R +, тому набір визначення (згаданий як "від" безліч) ймовірності вже не є тим самим. Ви можете назвати першу функцію L 1 ( . | )ϕ=θ2L(.|x)g(.)g(y)=y2gRR+L1(.|)а другий L 2 ( . | ), оскільки вони не є однаковими функціями. L2(.|)
gui11aume

1
Яке третє визначення суворе? І яка проблема з тим, що розмір вибірки не визначається? Оскільки ми говоримо P ( x 1 , x 2 , , x nθ ) , що, природно, створює відповідну алгебру сигми для зразкового простору Ω n , чому ми не можемо мати паралельне визначення ймовірностей? P(x1,x2,,xnθ)Ωn
Ніл Г

8

Я думаю, я би назвав це чимось інакшим. Ймовірність - це щільність ймовірності для спостережуваного x з урахуванням значення параметра θ, вираженого як функція θ для даного x . Я не поділяю думку про константу пропорційності. Я думаю, що це грає лише тому, що максимізація будь-якої монотонної функції ймовірності дає те саме рішення для θ . Таким чином, ви можете максимізувати c L ( θx ) для c > 0 або інших монотонних функцій, таких як log ( L ( θx ) )θθxθcL(θx)c>0log(L(θx)) що зазвичай робиться.


4
Не тільки максимізація: адекватна пропорційність також грає в поняття ймовірності співвідношення ймовірності, і в формулі Байєса для статистики Байєса
Stéphane Laurent

Я думав, що хтось може спростувати мою відповідь. Але я вважаю, що цілком імовірно визначити ймовірність таким чином як остаточну ймовірність, не називаючи нічого ймовірним імовірністю. @ StéphaneLaurent на ваш коментар про пріори, якщо функція інтегрується, її можна нормалізувати до щільності. Задня частина пропорційна ймовірності разів до попередньої. Оскільки заднє необхідно нормалізувати діленням на інтеграл, ми можемо також вказати попередній розподіл. Це стосується лише неналежних пріорів.
Майкл Р. Черник

1
Я не зовсім впевнений, чому хтось спростував цю відповідь. Здається, ви намагаєтесь відповісти більше на друге та питання ОП, ніж на перше. Можливо, це було не зовсім зрозуміло іншим читачам. Ура. :)
кардинал

@Michael Я також не бачу необхідності спростовувати цю відповідь. Щодо неінформативних пріорів (це ще одна дискусія та), я маю намір відкрити нове невдоволення з цього приводу. Не скоро це зроблю, бо мені нелегко англійська мова, і мені важче написати «філософію», ніж математику.
Стефан Лоран

1
@Stephane: Якщо ви хочете, будь ласка, розмістіть своє інше питання безпосередньо французькою мовою. На цьому сайті є кілька носіїв французької мови, які, ймовірно, допоможуть перекласти будь-які уривки, про які ви не впевнені. Сюди входить модератор, а також редактор одного з найпопулярніших журналів статистики англійської мови. Я з нетерпінням чекаю питання.
кардинал

6

Ось спроба чіткого математичного визначення:

Let X:ΩRnX:ΩRn be a random vector which admits a density f(x|θ0)f(x|θ0) with respect to some measure νν on RnRn, where for θΘθΘ, {f(x|θ):θΘ}{f(x|θ):θΘ} is a family of densities on RnRn with respect to νν. Then, for any xRnxRn we define the likelihood function L(θ|x)L(θ|x) to be f(x|θ)f(x|θ); for clarity, for each xx we have Lx:ΘRLx:ΘR. One can think of xx to be a particular potential xobsxobs and θ0θ0 to be the "true" value of θθ.

A couple of observations about this definition:

  1. The definition is robust enough to handle discrete, continuous, and other sorts of families of distributions for XX.
  2. We are defining the likelihood at the level of density functions instead of at the level of probability distributions/measures. The reason for this is that densities are not unique, and it turns out that this isn't a situation where one can pass to equivalence classes of densities and still be safe: different choices of densities lead to different MLE's in the continuous case. However, in most cases there is a natural choice of family of densities that are desirable theoretically.
  3. I like this definition because it incorporates the random variables we are working with into it and, by design since we have to assign them a distribution, we have also rigorously built in the notion of the "true but unknown" value of θθ, here denoted θ0θ0. For me, as a student, the challenge of being rigorous about likelihood was always how to reconcile the real world concepts of a "true" θθ and "observed" xobsxobs with the mathematics; this was often not helped by instructors claiming that these concepts weren't formal but then turning around and using them formally when proving things! So we deal with them formally in this definition.
  4. EDIT: Of course, we are free to consider the usual random elements L(θ|X)L(θ|X), S(θ|X)S(θ|X) and I(θ|X)I(θ|X) and under this definition with no real problems with rigor as long as you are careful (or even if you aren't if that level of rigor is not important to you).

4
@Xi'an Let X1,...,XnX1,...,Xn be uniform on (0,θ)(0,θ). Consider two densities f1(x)=θ1I[0<x<θ]f1(x)=θ1I[0<x<θ] versus f2(x)=θ1I[0xθ]f2(x)=θ1I[0xθ]. Both f1f1 and f2f2 are valid densities for U(0,θ)U(0,θ), but under f2f2 the MLE exists and is equal to maxXimaxXi whereas under f1f1 we have jf1(xj|maxxi)=0jf1(xj|maxxi)=0 so that if you set ˆθ=maxXiθ^=maxXi you end up with a likelihood of 00, and in fact the MLE doesn't exist because supθjf1(x|θ)supθjf1(x|θ) is not attained for any θθ.
guy

1
@guy: thanks, I did not know about this interesting counter-example.
Xi'an

1
@guy You said that supθjf1(xj|θ)supθjf1(xj|θ) is not attained for any θθ. However, this supremum is attained at some point as I show below: L1(θ;x)=nj=1f1(xj|θ)=θnnj=1I(0<xj<θ)=θnI(0<M<θ),
where M=max{x1,,xn}. I am assuming that xj>0 for all j=1,,n. It is simple to see that 1. L1(θ;x)=0, if 0<θM; 2. L1(θ;x)=θn, if M<θ<. Continuing...
Alexandre Patriota

1
@guy: continuing... That is, L1(θ;x)[0,Mn),
for all θ(0,). We do not have a maximum value but the supremum does exist and it is given by supθ(0,)L1(θ,x)=Mn
and the argument is M=argsupθ(0,)L1(θ;x).
Perhaps, the usual asymptotics are not applied here and some other tolls should be employed. But, the supremum of L1(θ;x) does exist or I missed some very basic concepts.
Alexandre Patriota

1
@AlexandrePatriota The supremum exists, obviously, but it is not attained by the function. I'm not sure what the notation argsup is supposed to mean - there is no argument of L1(θ;x) which yields the sup because L1(θ;M)=0. The MLE is defined as any ˆθ which attains the sup (typically) and no ˆθ attains the sup here. Obviously there are ways around it - the asymptotics we appeal to require that there exists a likelihood with such-and-such properties, and there does. It's just L2 rather than L1.
guy
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.