Багато PDF-файлів варіюються від мінус до позитивної нескінченності, проте деякі засоби визначені, а деякі - ні. Яка загальна ознака робить деякі обчислювальними?
Багато PDF-файлів варіюються від мінус до позитивної нескінченності, проте деякі засоби визначені, а деякі - ні. Яка загальна ознака робить деякі обчислювальними?
Відповіді:
Середнє значення розподілу визначається інтегралом (я напишу його так, ніби для безперервного розподілу - як інтеграл Рімана, скажімо - але питання стосується більш загального характеру; ми можемо перейти до інтеграції Стілєтджеса або Лебега, щоб вирішити ці правильно і все відразу):
Але що це означає? Це фактично скорочення для
або
(хоча ви можете зламати його де завгодно, а не лише на 0)
Проблема виникає тоді, коли межі цих інтегралів не є кінцевими.
Так, наприклад, розглянемо стандартну щільність Коші, пропорційну ... зауважте, що
дозволяє , тому d u = 2 x
що не є кінцевим. Межа в нижній половині також не є кінцевою; очікування, таким чином, не визначене.
Або якби ми мали як нашу випадкову величину абсолютне значення стандартного Коші, все її очікування було б пропорційним тому межі, яку ми тільки що подивилися (тобто ).
З іншого боку, деякі інші щільності продовжують "до нескінченності", але їх інтеграл має обмеження.
Інші відповіді хороші, але можуть не переконати всіх, особливо людей, які дивляться на розподіл Коші (з ) і кажуть, що все одно очевидно, що середнє значеннямаєдорівнювати нулю.
Причина того, що інтуїтивна відповідь не є правильною з математичної точки зору, обумовлена теоремою про перестановку Рімана (відео) .
Ефективно те, що ти робиш, коли дивишся на Коші і кажеш, що середнє значення "має бути нульовим" - це те, що ти розбиваєш "центр" на нуль, а потім вимагаєш, щоб моменти балансу двох розмірів. Або іншими словами, ви неявно виконуєте нескінченну суму з "половиною" доданків позитивом (моменти в кожній точці праворуч) і "половиною" терміни негативні (моменти в кожній точці зліва) і заявляєте про це сум до нуля. (Для технічно налаштованих: )
Теорема про перестановку Рімана говорить, що цей тип нескінченної суми (одна з як позитивними, так і негативними доданками) є послідовним лише у тому випадку, якщо два ряди (лише додатні доданки та лише від'ємні доданки) є кожним збіжним, якщо взяти їх незалежно. Якщо обидві сторони (позитивна та негативна) розходяться самостійно, то ви можете придумати порядок підсумовування термінів таким чином, щоб він підсумовував будь-яке число. (Відео вище, починаючи з 6:50)
Так, так, якщо ви робите підсумки врівноважено з 0, перші моменти з розподілу Коші скасовуються. Однак (стандартне) визначення середини не примушує цього порядку підсумовувати. Ви повинні мати можливість підсумовувати моменти в будь-якому порядку і мати їх однаковою мірою. Тому середнє значення розподілу Коші не визначене - розумним вибором того, як ви підсумовуєте моменти, ви можете зробити їх «балансувати» (чи ні) практично в будь-якій точці.
Отже, щоб визначити середнє значення розподілу, кожен момент інтегралів повинен бути незалежно конвергентним (кінцевим) навколо запропонованого середнього (що, коли ви робите математику, насправді є просто ще одним способом сказати, що повний інтеграл ( ) має бути збіжним). Якщо хвости "жирні" досить, щоб зробити момент для однієї сторони нескінченним, ви закінчили. Ви не можете збалансувати це з нескінченним моментом з іншого боку.
Я мушу зазначити, що "протиінтуїтивна" поведінка таких речей, як розподіл Коші, повністю пов'язана з проблемами, коли думаєш про нескінченність. Візьміть розподіл Коші і відірвіть хвости - навіть як завгодно далеко, як при плюс / мінус число xkcd - і (раз повторно нормалізуючись) ви раптом отримаєте щось, що добре поводиться і має визначене значення. Це не самі жирові хвости - це те, як вони ведуть себе, коли ви наближаєтесь до нескінченності.
Генерал Абріал і Glen_b мали ідеальні відповіді. Я просто хочу додати невелику демонстрацію, щоб показати вам середнє значення розподілу Коші не існує / не конвергується.
У наступному експерименті ви побачите, навіть якщо ви отримаєте велику вибірку і підрахуйте емпіричне середнє значення від вибірки, числа сильно відрізняються від експерименту до експерименту.
set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))
Редагувати:
Як зазначається @ mark999 у чаті, ми повинні стверджувати, що два розподіли, використані в експерименті, мають подібну "дисперсію" (причина, яку я використовую, тому, що дисперсія розподілу Коші також не визначена). Ось виправдання: їхній PDF схожий.
curve(dnorm, -8,8)
curve(dcauchy, -8,8)
За визначенням інтеграла Лебега-Стілтеджі середнє значення існує, якщо:
https://en.wikipedia.org/wiki/Moment_(mathematics)#Significance_of_the_moments
Оскільки розподіл по колу є обертально симетричним, на ньому не може бути середнього, медіанного чи режиму. Аналогічно, вищі моменти, такі як дисперсія, не можуть мати сенсу. Цей розподіл природним чином виникає у багатьох контекстах. Наприклад, мій поточний проект передбачає мікроскопські зображення ракової тканини. Дуже численні об’єкти на зображенні не симетричні, і кожному напрямку можна призначити "напрямок". Очевидною нульовою гіпотезою є те, що ці напрями розподілені рівномірно.
, звичайна форма розподілу Коші, і "Гей, престо!", простота стає головним болем, що вимагає лікування за допомогою тонкощів теорії інтеграції.
під стереографічним проекцією, і це стає медіаною і режимом розподілу Коші.