"Загальна площа під функцією густини ймовірності дорівнює 1" - відносно чого?


20

Концептуально я розумію значення фрази "загальна площа під PDF - 1". Це має означати, що шанси на те, що результат буде в загальному інтервалі можливостей, становлять 100%.

Але я не можу реально зрозуміти це з "геометричної" точки зору. Якщо, наприклад, у форматі PDF вісь x являє собою довжину, чи загальна площа під кривою не стала б більшою, якби вимірювали х у мм, а не км?

Я завжди намагаюся уявити, як виглядала б площа під кривою, якби функція була сплющена до прямої. Чи буде висота (положення на осі у) цього рядка однаковою для будь-якого PDF-файлу, чи матиме контингент значення на інтервалі на осі x, для якого визначена функція?


Ви можете змінити масштаб осі від км до мм, але що б це означало? Ви все одно матимете саме таку картинку та ще шість нулів для одиниць на осі x . Ви можете збільшити або зменшити масштаб, якщо бажаєте, але це не змінить картину. Тим часом, якщо крива pdf - це пряма горизонтальна лінія (що передбачає рівномірний розподіл), її положення на осі y залежить не від одиниць осі x, а лише від довжини інтервалу по осі x . Не впевнений, наскільки це корисно для вас, але для мене ідея збільшення та зменшення масштабу полегшує розуміння. xxx xyxx
Річард Харді

2
Це здається правдою. Але це таке використання (правда, дивного) лупи, яке збільшується в горизонтальному напрямку на 1000 і в той же час пропорційно скорочується у вертикальному напрямку. Але суть малюнка не зміниться, якщо змінити лише масштаб.
Річард Харді

2
Мені здається, це питання є таким самим, як на запитання (по-іншому) і відповів на stats.stackexchange.com/questions/4220/… .
whuber

1
@amoeba, Так, хоча багато хто може відчути вимушеність проголосувати за довшу відповідь, визнаючи зусилля, докладені до неї (що я також зробив, btw), Аксакал відповів на моє запитання набагато чіткіше і лаконічніше. Справедливо кажучи, я б сказав, що відповідь Срібної рибки також допомогла, і я прийшов найближчим часом.
TheChimera

2
@amoeba Цілком іншим напрямком відповіді могло бути зосередження на тому, що PDF-файли є похідними CDF, тому область під PDF - це просто граничне значення CDF - це однозначно одне, незалежно від використовуваних одиниць. Мені сподобалося включити короткий розділ з цього питання, але я вважав, що моя відповідь була досить довгою (і до того ж, ключовим у питанні ОП, здавалося, було питання випуску підрозділів, до якого CDF підходить, як правило).
Срібна рибка

Відповіді:


14

Функція щільності ймовірності вимірюється у відсотках на одиницю вимірювання вашої осі x. Скажімо, у заданій точці ваш PDF дорівнює 1000. Це означає, що ймовірність дорівнює де в метрах. Якщо ви зміните одиниці на сантиметри, то ймовірність не повинна змінюватися за один і той же інтервал, але той самий інтервал має на 100 більше сантиметрів, ніж метри, так що та вирішення ми отримуємо . Там в 100 разів менше одиниць ймовірності (відсотків) на сантиметр, ніж на метр.x0x0<x<x0+dx1000dxdx1000dx=PDF(x0)100dxPDF(x0)=PDF(x0)100


46

Це може допомогти вам зрозуміти, що вертикальна вісь вимірюється як щільність ймовірності . Отже, якщо горизонтальна вісь вимірюється в км, то вертикальна вісь вимірюється як щільність ймовірності "на км". Припустимо, ми намалюємо прямокутний елемент на такій сітці, яка шириною 5 "км" і висотою 0,1 "на км" (що ви можете сказати як "км "). Площа цього прямокутника дорівнює 5 км х 0,1 км = 0,5. Одиниці скасовуються, і нам залишається лише одна ймовірність.- 111

Якщо ви змінили горизонтальні одиниці на "метри", вам доведеться змінити вертикальні одиниці на "на метр". Прямокутник зараз був би шириною 5000 метрів і мав би щільність (висоту) 0,0001 на метр. У вас все ще залишається вірогідність половини. Ви можете бути обурені тим, як дивні ці два графіки будуть виглядати на сторінці порівняно один з одним (чи не один повинен бути набагато ширшим та коротшим за інший?), Але коли ви фізично малюєте сюжети, ви можете використовувати будь-що вам подобається масштаб. Подивіться нижче, щоб побачити, наскільки мало дивацтва.

Можливо, вам буде корисно розглянути гістограми, перш ніж перейти до кривих щільності ймовірності. Багато в чому вони аналогічні. Вертикальна вісь гістограми - це щільність частоти [на одиницю],x а області представляють частоти, знову ж таки тому, що горизонтальні та вертикальні одиниці відміняються при множенні. Крива PDF - це свого роду безперервна версія гістограми, загальна частота якої дорівнює одиниці.

Ще більш близькою аналогією є гістограма відносної частоти - ми кажемо, що така гістограма була "нормалізована", так що елементи області тепер представляють пропорції вашого вихідного набору даних, а не необроблені частоти, а загальна площа всіх барів - одна. Зараз висоти відносні щільності частоти [на одиницю]x . Якщо гістограма відносної частоти має смугу, яка проходить вздовжxзначення від 20 км до 25 км (тому ширина смуги становить 5 км) і має відносну щільність частоти 0,1 на км, то цей бар містить 0,5 частку даних. Це точно відповідає думці про те, що випадково вибраний елемент із набору даних має 50% ймовірність лежати у цій смужці. Попередній аргумент про вплив змін у одиницях все ще застосовується: порівняйте пропорції даних, що лежать у смузі від 20 км до 25 км, з співвідношеннями в смузі від 20000 до 25000 метрів для цих двох ділянок. Ви також можете арифметично підтвердити, що області всіх барів у обох випадках дорівнюють одному.

Гістограми відносної частоти з різними одиницями

Що я міг би мати на увазі під своїм твердженням, що PDF - це "своєрідна безперервна версія гістограми"? Візьмемо невелику смугу під кривою щільності ймовірності вздовж значень в інтервалі , тому смуга дорівнює ширині, а висота кривої - приблизно константа . Ми можемо намалювати смугу такої висоти, площа являє собою приблизну ймовірність лежання в цій смужці.[ x , x + δ x ] δ x f ( x ) f ( x )x[x,x+δx]δxf(x)f(x)δx

Як ми можемо знайти площу під кривою між і ? Ми могли б поділити цей інтервал на невеликі смужки і взяти суму площ барів, , яка б відповідала приблизній ймовірності лежання в проміжку . Ми бачимо, що крива та бруски точно не вирівнюються, тому в нашому наближенні є помилка. Роблячи меншими та меншими для кожного бар, ми заповнюємо інтервал все більшими та вужчими смугами, забезпечує кращу оцінку площі.x = b f ( x )x=ax=b[ a , b ] δ x f ( x )f(x)δx[a,b]δxf(x)δx

Щоб точно обчислити площу, замість того, щоб було постійним по всій смузі, ми оцінюємо інтеграл , і це відповідає справжній ймовірності лежання в інтервалі . Інтегрування по всій кривій дає загальну площу (тобто загальну ймовірність) одну, з тієї ж причини, що підсумовуючи площі всіх барів гістограми відносної частоти, дає загальну площу (тобто загальну частку) одиниці. Інтеграція сама по собі є свого роду суцільною версією взяття суми.b a f ( x ) d x [ a , b ]f(x)abf(x)dx[a,b]

введіть тут опис зображення

R код сюжетів

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

ви прибивали його першими двома рядками, але решта так само добре.
PatrickT

2
@PatrickT Спасибі - досвід викладання говорить про те, що іноді вам доведеться спробувати пару речей, перш ніж копійка впаде, бо різні студенти (чи читачі) приходять з різним рівнем знань. Перші два рядки повинні переконати будь-якого читача, який знає розмірний аналіз (наприклад, якщо вивчав фізичні науки чи техніку), але я сподіваюся, що сюжети розберуть решту! На мій досвід, підхід гістограми добре працює для студентів, які раніше їх зустрічали; проміжок між "відносною щільністю частоти" та "щільністю ймовірності" легше подолати, ніж . f(x)=F(x)
Срібна рибка

1
@Silverfish: Це перший раз, коли я бачив, як хтось використовує в англійській мові термін "краплі копійки"!
Мехрдад

1
Перший графік схожий на те, що хтось перевернув птаха :)
Аксакал

1
@Aksakal Ooof. Я цього не помічав. Потрібно пам’ятати, що не використовувати цей приклад у класі без кількох модифікацій. (У тих же рядках, коли складаються проблеми, які потрібно вирішити на дошці, є певні цифри, такі як 69, я намагаюся уникати появи. Досвід важко перемагає.)
Срібна рибка

7

Ви вже отримали дві відповіді, із відмінною - Silverfish , проте я думаю, що тут може бути корисна ілюстрація, оскільки ви запитували про геометрію та «уявляли» собі ці функції.

Почнемо з простого прикладу розподілу Бернуллі :

f(x)={pif x=1,1pif x=0.

введіть тут опис зображення

Оскільки значення дискретні, немає "кривої", а лише двох точок, однак ідея схожа: якщо ви хочете знати загальну ймовірність (площа під кривою), ви повинні підсумувати ймовірності обох можливих результатів:

p+(1p)=1

У цьому рівнянні є лише та оскільки у нас є лише два можливі точкові результати із заданими ймовірностями.1 - пp1p

Те саме було б з розподілом Пуассона, що також є дискретним розподілом ймовірностей. Існує більше двох значень, тож ви можете уявити, що існує лінія, яка з'єднує точки, однак для обчислення загальної ймовірності вам доведеться підсумувати всі ймовірності . Розподіл Пуассона часто використовується для опису даних підрахунку, тому ви можете думати про це, оскільки кожен - це певна кількість певних подій, а - ймовірність цього результату. Ви можете собі уявити, що кожна точка на графіку нижче - це насправді висота стека, яка складається з певних результатів: - це стек усіх "x f (xxf(x)x1x1"результати, які ви спостерігали тощо. Загальна" площа під кривою "була б тут всі стеки підсумовані (або мета- стек усіх результатів), але оскільки ми не підсумовуємо кількість подій, а скоріше ймовірності, вони підсумовують до Отже, ви не повинні розглядати це як суму підрахунків , а як суму ймовірностей: де - загальна кількість всіх можливих результатів.1#{xi}=N#{xi}/N=1N

введіть тут опис зображення

Тепер розглянемо звичайний розподіл, який насправді є безперервним розподілом - тому у нас немає "точок", оскільки значення знаходяться в безперервному масштабі, тобто є нескінченно багато значеньxx. Тож якби були точки, ви не могли їх побачити незалежно від того, наскільки б ви "збільшували масштаб", оскільки між будь-якими точками завжди може бути нескінченна кількість менших точок. Через це у нас насправді є крива - ви можете уявити, що вона зроблена з нескінченно багатьох "точок". Ви можете запитати себе: як обчислити суму нескінченної кількості ймовірностей ..? На графіку нижче червоної кривої - це звичайний PDF, а в чорних полях - гістограма деяких значень, отриманих з розподілу. Так графік гістограми спростив наш розподіл до кінцевої кількості «коробок» з певною шириноюі якби ви підсумували висоти коробок, помножені на їх ширину, ви отримаєте площу під кривою - або площу всіх коробок. Тут ми використовуємо області, а не точки, оскільки кожне поле - це підсумок нескінченної кількості "точок", які були запаковані у поле.

введіть тут опис зображення

Отже, щоб отримати загальну площу, ми беремо висоту (тобто ) і ширину (наприклад, перша коробка має ширину: , така ж, як і всі інші поля). На дійсному малюнку нанесені висоти коробок:f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

якщо підсумувати їх, помноживши кожен на (ширина), вони підсумовують до . Тут ви нічого не можете порахувати, оскільки існує нескінченно багато можливих точок, що утворюють криву. З іншого боку, оскільки ми говоримо про ймовірності, ймовірність усіх можливих результатів повинна бути .0.511

У цьому випадку ми використовуємо "ймовірність на одиницю", і одиниця може мати будь-яку ширину на ваш вибір. Розгляньте "всі можливі результати" у безперервному масштабі як лінію, яку можна розділити на частини, і кожну частину можна розділити на кілька менших частин аж до нескінченно малих. Загальна ймовірність цього рядка дорівнює . Якщо це було б плоско, ніж ви могли собі уявити, що його загальна довжина дорівнює і поділивши його, ви отримаєте ймовірності частин. Якщо лінія не є плоскою, ймовірність на частину описується функцією . Отже, одиниці насправді не мають значення, оскільки існує нескінченна кількість можливих "точок", це ймовірність на одиницю, де одиниця завжди однакова: частка "загальної" довжини .11f(x)

Такий підхід спрощено ілюструє трохи складнішу проблему - взяття інтегралів . У безперервному випадку ви використовуєте інтеграли для обчислення площі під кривою. Інтеграл площі кривої між точками і ( і на графіку):ab33

abf(x)dx

де - висота, а - ширина, і ви можете думати як для безперервних змінних. Щоб дізнатися більше про інтеграли та обчислення, ви можете ознайомитись з лекціями Академії Хана .d x f(x)dx

Ви також запитували про "плоский" (рівномірний) розподіл :

введіть тут опис зображення

Спочатку зауважте, що це не є дійсним рівномірним розподілом, оскільки він повинен мати такі параметри, що , щоб інтегруватись до . Якщо ви подумаєте про це, воно є суцільним і оскільки воно плоске, це якась коробка шириною від до . Якби ви хотіли обчислити площу такого поля, ви б помножили висоту на ширину. На жаль, хоча ширина нескінченно широка, для її інтеграції до висота повинна була б бути деяким який надзвичайно малий ... Отже, це складний випадок, і ви могли його уявити скоріше в абстрактних умовах. Зауважте це, як Ільмарі Каронен1 - 1 ε<a<b<11εпомічено в коментарі, це досить абстрактна ідея, яка насправді неможлива на практиці (див. коментар нижче). Якщо використовувати такий розподіл як попередній, це було б неправильним попереднім .

Зауважте, що у безперервному випадку функція густини ймовірностей дає оцінку щільності, а не ймовірності, тому висоти (або їх сума) можуть перевищувати (див. Тут докладніше).1


1
Для плоского (тобто рівномірного ) розподілу на нескінченній лінії "складний" насправді означає "неможливий": рівномірний розподіл на безліч нескінченних мір не є дійсним розподілом ймовірностей, саме тому, що його не можна масштабувати інтегрувати до . Це іноді корисно робити вигляд , що це один, але приймати це занадто далеко швидко призводить до парадоксів. (Наприклад, нехай і є незалежними та рівномірно розподіленими на ; яка ймовірність того, що ?)X Y ( - , ) | X | < | Y |1XY(,)|X|<|Y|
Ілмарі Каронен

Ви маєте рацію, "складне" занадто неформально. Пізніше я вношу виправлення.
Тім

0

Наступна ключова ідея була згадана в коментарі, але не в існуючій відповіді ...

Один із способів інтуїції щодо властивостей PDF - вважати, що PDF та CDF пов'язані інтеграцією (обчисленням) - і що CDF має монотонний вихід, який представляє значення ймовірності між 0 і 1.

Безрозмірний інтегрована загальна площа під кривою PDF не залежить від осі Х одиниць.

Простіше кажучи ...

Area = Width x Height

Якщо вісь X збільшується чисельно через зміну одиниць, то вісь Y повинна стати меншою за відповідний лінійний коефіцієнт.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.