Чи може бути значенням розподілу ймовірностей, що перевищує 1?


149

На сторінці Вікіпедії про наївних класифікаторів Байєса є такий рядок:

p(height|male)=1.5789 (Розподіл ймовірностей на 1 - це нормально. Площа під кривою дзвону дорівнює 1.)

Як значення >1 може бути в порядку? Я вважав, що всі значення ймовірності виражаються в діапазоні 0p1 . Крім того, враховуючи те, що можливо мати таке значення, як це значення отримане в прикладі, показаному на сторінці?


2
Коли я побачив, що я думав, що це може бути висота функції щільності ймовірності, яка може бути будь-яким позитивним числом до тих пір, коли вона інтегрується через будь-який інтервал, інтеграл менший або рівний 1. Вікіпедія повинна виправити цей запис.
Майкл Черник

16
Оскільки це може допомогти майбутнім читачам, я пропоную геометричний переклад загальної частини цього питання: "Як форма, площа якої не перевищує можливо, розшириться більше в будь-якому напрямку?" Зокрема, форма - це частина верхньої половини площини, обмежена вище графіком PDF, а напрямок, про який йде мова, є вертикальним. В геометричній установці (скорочення ймовірності інтерпретації) легко придумувати такі приклади, як прямокутник основи не більше та висота . 111/22
whuber

У статті у Вікіпедії зараз використовуються малі регістри pщільності ймовірності та великі P
регістри

Я просто залишу це для наступного хлопця: en.wikipedia.org/wiki/Dirac_delta_function
Джошуа

Варто зазначити, що функція накопичувального розподілу (інтеграл PDF) не може перевищувати 1. CDF набагато інтуїтивніше використовувати у багатьох випадках.
naught101

Відповіді:


167

Ця сторінка Wiki зловживає мовою, посилаючись на цей номер як імовірність. Ви праві, що це не так. Це насправді ймовірність на фут . Зокрема, значення 1,5789 (для висоти 6 футів) означає, що ймовірність висоти між скажімо, 5,99 та 6,01 футів близька до наступного безроздільного значення:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

Це значення не повинно перевищувати 1, як відомо. (Невеликий діапазон висот (0,02 у цьому прикладі) є важливою частиною апарату ймовірностей. Це "диференціал" висоти, який я скорочу . Імовірності на одиницю чогось є називається густиною за аналогією до інших щільностей, як маса на одиницю об'єму.d(height)

Сумлінні імовірнісні щільності можуть мати як завгодно великі значення, навіть нескінченні них.

Розповсюдження гамми

Цей приклад показує функцію щільності ймовірності для розподілу гамми (з параметром форми та шкалою ). Оскільки більша частина щільності менша за , крива повинна підніматися вище , щоб мати загальну площу як це потрібно для всіх розподілів ймовірностей.3/21/5111

Бета-розподіл

Ця щільність (для бета-розподілу з параметрами ) стає нескінченною при і в . Загальна площа ще обмежена (і дорівнює )!1/2,1/10011


Значення 1,5789 / фут виходить у цьому прикладі, оцінюючи, що висота самців має нормальний розподіл із середнім рівнем 5,855 футів та дисперсією 3,50е-2 квадратних футів. (Це можна знайти в попередній таблиці.) Квадратний корінь цієї дисперсії - це стандартне відхилення, 0,18717 футів. Ми повторно виражаємо 6 футів як кількість SD від середнього:

z=(65.855)/0.18717=0.7747

Поділ на стандартне відхилення виробляє відношення

dz=d(height)/0.18717

Нормальна щільність ймовірності за визначенням дорівнює

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

(Насправді, я обдурив: я просто попросив Excel обчислити NORMDIST (6, 5.855, 0.18717, FALSE). Але тоді я дійсно перевірив це за формулою, щоб бути впевненим.) Коли ми знімаємо суттєвий диференціальний від формули залишається лише число , як і посмішка Кішки Чеширського. Нам, читачам, потрібно зрозуміти, що число потрібно помножити на невелику різницю висот, щоб створити ймовірність.d(height)1.5789


Зауважу, що приклад, наведений на цій сторінці вікі, використовує щільність ймовірності замість фактичних ймовірностей для обчислення плакатів, імовірно, тому, що одиничний аспект не потрібен для порівняльних цілей, якщо одиниці, що порівнюються, однакові. Розширюючи це, якщо не хочеться припускати нормальність, але натомість є емпіричні дані, за якими можна оцінити щільність, наприклад, оцінку щільності ядра, чи було б справедливим використовувати зчитування за заданим значенням на осі x з цього kde як вхід для обчислення плакатів у класичному класифікаторі наївних баєсів, вважаючи рівним на одиниці?
babelproofreader

1
@babelproofreader Я вважаю, що плакати - це байєсівські оновлення, завдяки навчальним даним, пріорі. Незрозуміло, як kde може бути розтлумачено аналогічно, але я не експерт у цій галузі. Ваше запитання досить цікаве, що ви можете розглянути можливість опублікувати його окремо.
whuber

Як визначити, що таке хороший диференціал? Що робити, якщо ви вибрали різницю 1 замість цього? ймовірність буде тоді більша за 1? Вибачте за мою плутанину тут. Ти можеш пояснити?
fiacobelli

3
@tree Площа трикутника - це половина добутку довжини його основи та її висоти.
whuber

1
@ user929304 Ви можете звернутися до будь-якого теоретичного підручника, який звертається до вас: це частина основ імовірності та статистики. Ця конкретна концепція щільності ймовірності добре обговорюється в кращих вступних підручниках, таких як Фрідман, Пісані та Первес .
whuber

43

Це поширена помилка, коли не розуміють різницю між функціями маси ймовірностей, де змінна є дискретною, і функціями щільності ймовірності, де змінна є неперервною. Дивіться, що таке розподіл ймовірностей :

функції безперервної ймовірності визначаються для нескінченної кількості точок протягом неперервного інтервалу, ймовірність в одній точці завжди дорівнює нулю. Ймовірності вимірюються через інтервали, а не поодинокі бали. Тобто площа під кривою між двома різними точками визначає ймовірність для цього інтервалу. Це означає, що висота функції ймовірності насправді може бути більше одиниці. Властивість, інтеграл якої повинен дорівнювати одиниці, рівносильна властивості для дискретних розподілів, що сума всіх ймовірностей повинна дорівнювати одиниці.


14
NIST, як правило, є авторитетним, але тут технічно некоректно (і неграматично завантажуватись): наявність вірогідності, визначеної у "нескінченній кількості балів", не означає, що "ймовірність в одній точці завжди дорівнює нулю". Звичайно, вони просто ухиляються від відволікання на безмежні кардинальності, але міркування тут вводять в оману. Їм було б краще лише пропустити перше речення в цитаті.
whuber

23

Я думаю, що безперервний рівномірний розподіл через інтервал є прямим прикладом для цього питання: При безперервному рівномірному розподілі щільність у кожній точці однакова у кожній точці (рівномірний розподіл). Більше того, оскільки площа під прямокутником повинна бути одна (так само, як площа нижче нормальної кривої повинна бути одна), значення щільності повинно бути оскільки будь-який прямокутник із базовою та площею повинен мати висоту .[a,b]1/(ba)ba11/(ba)

Отже значення для рівномірної щільності на проміжку дорівнює , на проміжку - , ...[0,0.5]1/(0.50)=2[0,0.1]10


4

Я не знаю, чи редагувалася стаття у Вікіпедії після початкових публікацій у цій темі, але тепер сказано: "Зауважте, що значення, що перевищує 1, тут добре - це щільність ймовірності, а не ймовірність, тому що висота неперервна змінна. ", і принаймні в цьому безпосередньому контексті P використовується для ймовірності, а p використовується для щільності ймовірності. Так, дуже неохайно, оскільки стаття використовує p в деяких місцях для позначення ймовірності, а в інших місцях як щільності ймовірності.

Повернутися до початкового запитання "Чи може бути значенням розподілу ймовірностей, що перевищує 1?" Ні, але я бачив це зроблено (див. Останній абзац нижче).

Ось як витлумачити ймовірність> 1. Перш за все, зауважте, що люди можуть і роблять 150% зусиль, як ми часто чуємо в спорті, а іноді працюємо https://www.youtube.com/watch?v=br_vSdAOHQQ . Якщо ви впевнені, що щось відбудеться, то це ймовірність 1. Вірогідність 1,5 може бути інтерпретована так, як ви на 150% впевнені, що подія станеться - начебто доклавши 150% зусиль.

І якщо ви можете мати ймовірність> 1, я вважаю, ви можете мати ймовірність <0. Негативні ймовірності можна інтерпретувати так. Ймовірність 0,001 означає, що шансів на те, що подія майже не існує. Ймовірність = 0 означає "ніяк". Негативна ймовірність, наприклад -1,2, відповідає "Ви маєте жартувати".

Коли я був школярем, який був поза школою 3 десятиліття тому, я був свідком події, яка була приголомшливішою, ніж пробивання звукового бар'єру в авіації, а саме, імовірність порушення бар'єру єдності. Аналітик з доктором наук. в галузі фізики витратив 2 роки на повний робочий день (ймовірно, даючи 150%), розробляючи модель для обчислення ймовірності виявлення об'єкта X, в кінці якої його модель та аналіз успішно завершили експертну перевірку кількома вченими та інженерами, тісно пов'язаними з США уряду. Я не скажу вам, що таке об’єкт X, але об’єкт X та ймовірність його виявлення були і залишаються значними для уряду США. Модель включала формулу = Prob (подія y трапляється). PyPyі деякі інші терміни, об'єднані в остаточну формулу, яка була Проб (виявляється об'єкт X). Дійсно, обчислені значення Проба (виявляється об’єкт X) знаходилися в межах [0,1], як це є "традиційним", ймовірно, у традиції Колмогорова. у своєму первісному вигляді завжди знаходився в [0,1] і передбачав трансцендентальні функції "сорту саду", які були доступні у стандартному Fortran або будь-якому науковому калькуляторі. Однак з причини, відомою лише аналітику та Богові (можливо, тому, що він це бачив у своїх заняттях з фізики та книгах, але не знав, що йому показали кілька випадків, коли це працює, а не ще багато, де це робиться ні, і ім'я цього хлопця та науково-математичне судження не трапилось на ім'я Дірака),PyPy(і ігноруйте залишок терміну), який відтепер буде називатися . Саме цей два терміни розширення Тейлора було вставлено в кінцевий вираз для Prob (об'єкт X виявлений). Що він не усвідомлював, поки я не вказав на нього, це те, що дорівнював приблизно 1,2, використовуючи його базові значення для всіх параметрів. Дійсно, це було можливо дляPyPyPyPyдо 1,8. Ось так імовірність була зламана бар'єр єдності. Але хлопець не знав, що він здійснив цей піонерський подвиг, поки я не вказав на нього, тільки що здійснив швидкі розрахунки на науковому калькуляторі Casio розміром кредитної картки розміром у темній конференц-залі (не міг би це зробити з калькулятор, що працює на сонячній енергії). Це було б так, як Чак Йегер, який вийшов на недільний оберт у своєму літаку, і лише через місяці отримав повідомлення про те, що він зламав звуковий бар'єр.


Класна історія. Чи є у вас додаткова інформація щодо цього, як цитування?
Джей Шилер Раадт

1
@ Jay Schyler Raadt Це задокументовано на сайті stats.stackexchange.com/questions/4220/… , ха-ха.
Марк Л. Стоун

0

Коли випадкова величина є неперервною і її функція густини ймовірності дорівнює , є ймовірністю, але не є ймовірністю і може бути більшою за одиницю. Повідомлений не є ймовірним, але є.Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

Іншими словами, для безперервної випадкової величини , , , і . Те саме стосується і умовних ймовірностей.XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0


-1

Значення бала при конкретному значенні параметра діаграми щільності ймовірності було б ймовірністю, правда? Якщо так, то висловлювання можна виправити, просто змінивши P (зріст | чоловічий) на L (зріст | чоловічий).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.