Що є причиною того, що ймовірність функції не є PDF?


57

Що є причиною того, що функція ймовірності не є pdf (функція щільності ймовірності)?


6
Функція ймовірності - це функція невідомого параметра (обумовлена ​​даними). Як такий, він, як правило, не має області 1 (тобто інтеграл над усіма можливими значеннями не є 1) і тому за визначенням не є PDF. θθθ
MånsT

3
Те саме питання щодо MO 2 роки тому: mathoverflow.net/questions/10971/…
Дуглас Заре

3
Цікава довідка, @Douglas. Відповіді досить незадовільні, ІМХО. Прийнятий передбачає речі, які просто не відповідають дійсності ("і і є pdfs": ні !), А інші насправді не ставляться до статистичних питань. p(X|m)p(m|X)
whuber

2
+1 каламут. Це дивно, що на сайті mathoverflow настільки погані відповіді, незважаючи на його такий високий математичний рівень!
Стефан Лоран

1
@Stephane: Це правда, але статистиків і навіть імовірністів, здається, досить мало і далеко між МО, за деякими помітними винятками. Це питання було з досить раннього часу існування МО, коли і загальноприйнятні питання, і якість відповідей суттєво відрізнялися.
кардинал

Відповіді:


61

Почнемо з двох визначень:

  • Функція щільності ймовірності (pdf) - це негативна функція, яка інтегрується в .1

  • Ймовірність визначається як спільна щільність спостережуваних даних як функція параметра. Але, як вказувало посилання на Леманна, зроблене @whuber у коментарі нижче, ймовірність функції є функцією лише параметра, при цьому дані зберігаються як фіксована константа. Тож факт, що це щільність як функція даних, не має значення.

Тому функція ймовірності не є файлом pdf, оскільки її інтеграл щодо параметра не обов'язково дорівнює 1 (і може взагалі не бути інтегрованим, як вказує інший коментар від @whuber).

Щоб побачити це, ми скористаємося простим прикладом. Припустимо, у вас є одне спостереження, , з розподілу . Тоді функція ймовірності єB e r n o u l l i ( θ )xBernoulli(θ)

L(θ)=θx(1θ)1x

Факт, що . Зокрема, якщо , то , такх = 1 л ( & thetas ; ) = & thetas ; 1 0 L ( & thetas ; ) d & thetas ; = 1 0 & thetas ; d & thetas ; = 1 / 201L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

і подібний розрахунок застосовується, коли . Тому не може бути функцією щільності.L ( θ )x=0L(θ)

Можливо, навіть важливіше, ніж цей технічний приклад, який показує, чому ймовірність не є щільністю ймовірності, - це вказувати, що ймовірність не є вірогідністю того, що значення параметра є правильним, або щось подібне - це ймовірність (щільність) даних з урахуванням значення параметра , що зовсім інша річ. Тому не слід очікувати, що функція ймовірності буде вести себе як щільність ймовірності.


12
+1 Тонкий момент полягає в тому, що навіть поява " " в інтегралі не є частиною функції ймовірності; воно походить з нізвідки. Серед безлічі способів побачити це, врахуйте, що репараметрізація не змінює нічого суттєвого щодо ймовірності - це лише перейменування параметра - але змінить інтеграл. Наприклад, якби ми параметризували розподіли Бернуллі за коефіцієнтами log то інтеграл навіть не збігався б. ψ = log ( θ / ( 1 - θ ) )dθψ=log(θ/(1θ))
whuber

3
Ось один із способів сказати: MLE є інваріантними при монотонних перетвореннях, але щільності ймовірності немає, QED! Це був саме аргумент Фішера, який я замальовував у коментарі до відповіді @Michael Chernick.
whuber

4
+1 для коментаря whuber. " " взагалі не має сенсу, оскільки в просторі параметрів немає навіть поля ! σdθσ
Стефан Лоран

1
@PatrickCaldon Єдиним обмеженням безперервності є cdf, який вимагає правоперервності. Вам це потрібно, щоб ваша ймовірність не перейшла від визначеної до невизначеної та (можливо) знову назад, що було б дивно. Я не впевнений на 100%, але я думаю, що поки у вас є ваш cdf, і така ймовірність, вам навіть не доведеться вирішувати . Якщо ви можете, це просто гарантує, що RV є безперервним. Df
Joey

1
(+1) Дозвольте першим привітати вас із досягненням 10К повторень! Гарна відповідь; Мені подобається приклад, який ви наводите, зокрема. Ура. :)
кардинал

2

Гаразд, але функція ймовірності - це спільна щільність ймовірності для спостережуваних даних, заданих параметром . Як такий він може бути нормалізований для формування функції щільності ймовірності. Отже, це по суті як PDF-файл.θ


3
Отже, ви просто вказуєте, що ймовірність є інтегральною щодо параметра (це завжди правда?). Я припускаю, що ви, напевно, натякаєте на ймовірність відношення до заднього розподілу, коли використовується плоскість, але без додаткових пояснень ця відповідь для мене залишається загадковою.
Макрос

6
Інтеграція до єдності є поруч із сутью. Фішер у статті про математичні основи теоретичної статистики 1922 р. Зауважив, що дійсно зазвичай ймовірність може бути "нормалізована" для інтеграції до єдності при множенні на відповідну функцію так що . Що він заперечував - це свавілля : є багато які працюють. "... слово ймовірність неправильно використовується в такому зв'язку: ймовірність - це відношення частот, а про частоти таких значень ми нічого нічого не можемо знати". L(θ)p(θ)L(θ)p(θ)dθ=1p
whuber

1
@ Нестор (і Майкл) - схоже, що ми з Ваубером інтерпретували це питання як запитання, чому ймовірність не є функцією щільності, як функцієюθ тому, здається, ми відповідаємо на різні запитання. Звичайно, ймовірність полягає у функції щільності спостережень (з урахуванням значення параметра) - саме так вона визначена.
Макрос

2
Майкл, я думаю, що ми інтерпретували це так, тому що ймовірність є функцією так, якби це була щільність, то це буде щільність у . Я можу уявити, як ви трактуєте це так, як у вас є, але така можливість у мене не виникла лише після прочитання коментаря Нестора. θθ
Макрос

4
Я вважаю, що двозначність створюється цією відповіддю, але її немає в питанні. Як вказує @Macro, ймовірність є функцією лише параметра. ( Наприклад , "Щільність , розглянута для фіксованого як функція , називається функцією ймовірності : Е. Л. Леманн, Теорія оцінки точок , розділ 6.2 .) Таким чином, питання зрозуміло. Відповідаючи, що "ймовірність - це щільність спільної ймовірності", не з'ясовується, а плутає питання.f(x1,θ)f(xn,θ)xθ
whuber

1

Я не статистик, але я розумію, що хоча сама ймовірність функціонування не є PDF у відношенні параметра (и), вона безпосередньо пов'язана з цим PDF за Правилом Байєса. Функція ймовірності P (X | theta) та задній розподіл, f (theta | X) тісно пов'язані; зовсім не "річ зовсім інша".


1
Ласкаво просимо на наш сайт! Ви можете знайти цікавий матеріал у коментарях до інших відповідей у ​​цій темі. Деякі з них зазначають, чому Правило Байєса не застосовується, якщо явно не введено додаткові математичні засоби (наприклад, поле Sigma для параметра).
whuber

Дякую @whuber. Я не помічав жодних посилань на Правило Байєса в іншому місці потоку, але я вважаю, що в коментарях є натяки, припускаючи, що один з них досить вільно вірогідний для випускників, щоб взяти їх на себе (що я не є). Чи не погоджуєтесь ви, що розміщення функції ймовірності в контексті Правила Байєса дає корисну інтуїцію для питання ОП?
сантаяна

Застосування правила Байєса неможливо без припущення розподілу ймовірностей для : відмінність між цим розподілом та розподілом даних як функція - це те, про що йдеться майже у всьому потоці. Безпосередньо припускаючи, що існує чи може бути таке поширення, є джерелом плутанини, обговореної в коментарі до відповіді Майкла Черника. Тому я погоджуюся, що чітке та ретельне обговорення цього пункту може бути корисним, але все, що виходить за рамки цього, ризикує створити більшу плутанину. θθ
whuber

Мої вибачення, на перший погляд ця нитка, здавалося, становила трохи більше, ніж непорозуміння, але тепер я бачу відповідні коментарі, на які ви посилаєтесь, зокрема вашу цитату Фішера. Але хіба це не зводиться до дискусії Байєса проти В. Частота? Чи не існує велика кількість практикуючих байесівських висновків, які б стверджували на користь розподілу ймовірностей для тети? (чи погоджуєтесь ви з ними - інша справа ...)
santayana

1
Так, тут ховається дебат між B і F. Вдумливий частоліст із задоволенням буде використовувати Правило Байєса, коли є підстава прийняти попереднє розповсюдження для , але компанія з частин байєсів, заперечуючи, що ми повинні прийняти попереднє. Ми можемо взяти підказку, як це питання було сформульовано. Якби він натомість запитав "чому можна трактувати функцію ймовірності як PDF (для параметрів)", це спрямовувало б цю розмову по лінії Байєса. Але негативно поставивши це питання, ОП шукала нас, щоб вивчити ймовірність з точки зору частістів. θ
whuber

1

Ймовірність визначається як , де якщо f (x; θ) - функція маси ймовірностей , то ймовірність завжди менше одиниці, але якщо f (x; θ) - функція густини ймовірностей, то ймовірність може бути більшою за одиницю, оскільки щільність може бути більшою одиниці.L(θ;x1,...,xn)=f(x1,...,xn;θ)

Зазвичай зразки обробляються в iid, тоді:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Подивимось його первісну форму:

Згідно з байєсівським висновком, справедливо, тобто . Зауважте, що оцінка максимальної вірогідності трактує співвідношення доказів до попереднього як постійне (див. Відповіді на це питання ), що омиває попередні переконання. Ймовірність має позитивну кореляцію з задньою, яка базується на оцінених параметрах. може бути файлом pdf, але - це не так, оскільки є лише частиною яку неможливо змінити. f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL^LLL^

Наприклад, я не знаю середньої та стандартної дисперсії гауссового розподілу і хочу отримати їх шляхом навчання, використовуючи безліч вибірок із цього розподілу. Я спочатку ініціалізую середню та стандартну дисперсію випадковим чином (що визначає розподіл Гаусса), а потім беру один зразок і вписується в розрахунковий розподіл, і я можу отримати ймовірність від розрахункового розподілу. Потім я продовжую ставити зразок і отримую багато ймовірностей, а потім помножую ці ймовірності і отримую оцінку. Такий бал є ймовірним. Навряд чи це може бути ймовірність певного pdf.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.