Що робить значення деяких розподілів невизначеним?


21

Багато PDF-файлів варіюються від мінус до позитивної нескінченності, проте деякі засоби визначені, а деякі - ні. Яка загальна ознака робить деякі обчислювальними?


14
Конвергентні інтеграли.
Sycorax каже, що повернеться до Моніки

1
Ці розподіли є математичними абстракціями. Якщо інтеграл не збігається, тоді значення не визначається. Однак у відповідях нижче не зазначено, що PDF-файли з мінусом нескінченності до плюс нескінченності не можуть моделювати реальні джерела даних. Не існує такого фізичного процесу для формування таких даних у реальному житті. На мою думку, всі реальні джерела даних будуть обмежені, і ви зможете наблизити середнє значення.
Cagdas Ozgenc

3
@Cagdas Це зауваження не видається правильним. Існує безліч важкохвостих процесів. Їх розбіжні очікування виявляються як надзвичайна мінливість у довгострокових середніх показниках. Наприклад, про переконливе застосування моделі Коші, див. Публікацію Дугласа Заре за адресою stats.stackexchange.com/a/36037/919 .
whuber

2
@CagdasOzgenc: Ви повинні прочитати Чорного лебедя від Taleb, щоб побачити, наскільки помилкові це міркування. Хоча евристично може не бути процесу, який ідеально генерує розподіл із невизначеною середньою чи нескінченною середньою величиною, є чимало прикладів, коли люди недооцінюють, наскільки жирними є хвости їх розподілу та приступають до обчислення засобів, тоді як справжній розподіл має мається на увазі, що це зовсім інше і, як правило, косоокість. Цей вид неправильних міркувань призвів до багатьох розбіжностей в оцінці ризику у фінансах, де ризик недооцінюється багатьма порядками.
Алекс Р.

1
@Cagdas Ozgenc: Для обговорення, чому ваш аргумент неправильний, див. Stats.stackexchange.com/questions/94402/…
kjetil b halvorsen

Відповіді:


23

Середнє значення розподілу визначається інтегралом (я напишу його так, ніби для безперервного розподілу - як інтеграл Рімана, скажімо - але питання стосується більш загального характеру; ми можемо перейти до інтеграції Стілєтджеса або Лебега, щоб вирішити ці правильно і все відразу):

E(X)=xf(x)dx

Але що це означає? Це фактично скорочення для

a,blimabxf(x)dx

або

alima0xf(x)dx+blim0bxf(x)dx

(хоча ви можете зламати його де завгодно, а не лише на 0)

Проблема виникає тоді, коли межі цих інтегралів не є кінцевими.

Так, наприклад, розглянемо стандартну щільність Коші, пропорційну ... зауважте, що11+x2

blim0bx1+x2dx

дозволяє , тому d u = 2 xu=1+x2du=2xdx

=blim1211+b21udu

=blim12ln(u)|11+b2

=blim12ln(1+b2)

що не є кінцевим. Межа в нижній половині також не є кінцевою; очікування, таким чином, не визначене.

Або якби ми мали як нашу випадкову величину абсолютне значення стандартного Коші, все її очікування було б пропорційним тому межі, яку ми тільки що подивилися (тобто ).blim12ln(1+b2)

З іншого боку, деякі інші щільності продовжують "до нескінченності", але їх інтеграл має обмеження.


1
Ви можете (звичайно) також бачити те саме в подібних дискретних розподілах ймовірностей. Візьміть розподіл, де ймовірність, якщо виникає, для цілого n > 0 пропорційнаnn>0 . Сума ймовірностей є кінцевою (що так само добре, оскільки вона повинна мати обмеження 1: насправді наша константа повинна бути1n26π2 або що б там не було), але оскільки сума 1n розходиться, це не означає. Тоді як ми обираємо ймовірність, пропорційну то середнє значення включає суму1n3 і ми все добре, це "досить мало", що воно сходиться. 1n2
Стів Джессоп

1
так, - константа масштабування для цього (щоб вона становила суму1). 6π2
Glen_b -Встановити Моніку

8

Інші відповіді хороші, але можуть не переконати всіх, особливо людей, які дивляться на розподіл Коші ) і кажуть, що все одно очевидно, що середнє значеннямаєдорівнювати нулю.x0=0

Причина того, що інтуїтивна відповідь не є правильною з математичної точки зору, обумовлена теоремою про перестановку Рімана (відео) .

Ефективно те, що ти робиш, коли дивишся на Коші і кажеш, що середнє значення "має бути нульовим" - це те, що ти розбиваєш "центр" на нуль, а потім вимагаєш, щоб моменти балансу двох розмірів. Або іншими словами, ви неявно виконуєте нескінченну суму з "половиною" доданків позитивом (моменти в кожній точці праворуч) і "половиною" терміни негативні (моменти в кожній точці зліва) і заявляєте про це сум до нуля. (Для технічно налаштованих: )0f(x0+r)rdr0f(x0r)rdr=0

Теорема про перестановку Рімана говорить, що цей тип нескінченної суми (одна з як позитивними, так і негативними доданками) є послідовним лише у тому випадку, якщо два ряди (лише додатні доданки та лише від'ємні доданки) є кожним збіжним, якщо взяти їх незалежно. Якщо обидві сторони (позитивна та негативна) розходяться самостійно, то ви можете придумати порядок підсумовування термінів таким чином, щоб він підсумовував будь-яке число. (Відео вище, починаючи з 6:50)

Так, так, якщо ви робите підсумки врівноважено з 0, перші моменти з розподілу Коші скасовуються. Однак (стандартне) визначення середини не примушує цього порядку підсумовувати. Ви повинні мати можливість підсумовувати моменти в будь-якому порядку і мати їх однаковою мірою. Тому середнє значення розподілу Коші не визначене - розумним вибором того, як ви підсумовуєте моменти, ви можете зробити їх «балансувати» (чи ні) практично в будь-якій точці.

Отже, щоб визначити середнє значення розподілу, кожен момент інтегралів повинен бути незалежно конвергентним (кінцевим) навколо запропонованого середнього (що, коли ви робите математику, насправді є просто ще одним способом сказати, що повний інтеграл ( ) має бути збіжним). Якщо хвости "жирні" досить, щоб зробити момент для однієї сторони нескінченним, ви закінчили. Ви не можете збалансувати це з нескінченним моментом з іншого боку.f(x)xdx


Я мушу зазначити, що "протиінтуїтивна" поведінка таких речей, як розподіл Коші, повністю пов'язана з проблемами, коли думаєш про нескінченність. Візьміть розподіл Коші і відірвіть хвости - навіть як завгодно далеко, як при плюс / мінус число xkcd - і (раз повторно нормалізуючись) ви раптом отримаєте щось, що добре поводиться і має визначене значення. Це не самі жирові хвости - це те, як вони ведуть себе, коли ви наближаєтесь до нескінченності.


Приємно. Цікаво, чи можна дати експліцитний "порядок підсумовування", який призводить до, скажімо, двох.
Меттью Друрі

@MatthewDrury: p_i та n_i позначають додатні та від’ємні числа. Послідовно знайдіть p_i та n_i так, що інтеграл над [n_i, p_i] дорівнює 2+ (1 / i), а інтеграл над [n_ {i + 1}, p_i] дорівнює 2 (1 / i). Можна зробити це явно, використовуючи R, matlab або matematika, але лише для обмеженої кількості термінів.
Девід Епштейн

7

Генерал Абріал і Glen_b мали ідеальні відповіді. Я просто хочу додати невелику демонстрацію, щоб показати вам середнє значення розподілу Коші не існує / не конвергується.

У наступному експерименті ви побачите, навіть якщо ви отримаєте велику вибірку і підрахуйте емпіричне середнє значення від вибірки, числа сильно відрізняються від експерименту до експерименту.

set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))

введіть тут опис зображення

1001×105

Редагувати:

Як зазначається @ mark999 у чаті, ми повинні стверджувати, що два розподіли, використані в експерименті, мають подібну "дисперсію" (причина, яку я використовую, тому, що дисперсія розподілу Коші також не визначена). Ось виправдання: їхній PDF схожий.

0

curve(dnorm, -8,8)
curve(dcauchy, -8,8)

введіть тут опис зображення


4
Я не думаю, що це показує, що розподіл Коші не має жодного значення. Ви можете отримати подібні результати, якщо замінити розподіл Коші нормальним розподілом на відповідно велику дисперсію.
mark999

хороший пункт @ mark999, я відредагую свою відповідь, щоб вирішити цю проблему.
Хайтао Ду,

Чи можна з PDF дистрибуції Коші зрозуміти, що він не має ніякого значення, ймовірно, дивлячись на його жирові хвости?
ks1322

Можливо, ви мали на увазі щось подібне? stats.stackexchange.com/questions/90531/…
Sycorax


2

dθ/2πθAS1length(A)/2πU(π,π)ππεπ+ε (=π+εmod2π)πU(π,π)ε/2π

Оскільки розподіл по колу є обертально симетричним, на ньому не може бути середнього, медіанного чи режиму. Аналогічно, вищі моменти, такі як дисперсія, не можуть мати сенсу. Цей розподіл природним чином виникає у багатьох контекстах. Наприклад, мій поточний проект передбачає мікроскопські зображення ракової тканини. Дуже численні об’єкти на зображенні не симетричні, і кожному напрямку можна призначити "напрямок". Очевидною нульовою гіпотезою є те, що ці напрями розподілені рівномірно.

S1p=(0,1)S1xθpxx=tan(θ/2)dθ/2=dx/(1+x2)dθπ(1+x2) , звичайна форма розподілу Коші, і "Гей, престо!", простота стає головним болем, що вимагає лікування за допомогою тонкощів теорії інтеграції.

S1{p}ppS1pp=(0,1)0R під стереографічним проекцією, і це стає медіаною і режимом розподілу Коші.


2
Розподіл Коші має медіану і режим.
jkabrg

Абсолютно вірно. Я трохи захопився. Але аргумент про неіснування середнього є правильним .. Я відредагую свою відповідь.
Девід Епштейн

θU(π,π)X=tan(θ/2)E[θ]=0

@jkabrg: Я сподіваюся, що нові редакції зробить це більш зрозумілим
Девід Епштейн
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.