Як обчислити 2D стандартне відхилення з 0 середнім значенням, обмеженим межами


10

Моя проблема полягає в наступному: я опускаю відразу 40 кульок з певної точки, кілька метрів над підлогою. Кульки котиться, і приходить до відпочинку. За допомогою комп’ютерного зору я обчислюю центр маси в площині XY. Мене цікавить лише відстань від центру маси до кожного кулі, яка розраховується за допомогою простої геометрії. Тепер я хочу знати однобічне стандартне відхилення від центру. Отже, я міг би знати, що певна кількість кульок знаходиться в межах одного std радіусу, більше кульок в радіусі 2 * std тощо. Як обчислити однобічне стандартне відхилення? Нормальний підхід зазначає, що половина кульок знаходиться на "негативній стороні" 0 означає. Це, звичайно, не має сенсу в цьому експерименті. Чи повинен я переконатися, що кульки відповідають стандартному розподілу? Дякую за будь-яку допомогу.

Відповіді:


13

Щоб охарактеризувати величину двовимірної дисперсії навколо центроїда, потрібно просто (коренева) середня відстань у квадраті,

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

У цій формулі - координати точок, а їх центроїд (точка середніх значень) дорівнює(xi,yi),i=1,2,,n(x¯,y¯).


Питання задає розподіл відстаней. Коли кулі мають ізотропний двовимірний нормальний розподіл навколо їх центральної залози - що є стандартним і фізично обґрунтованим припущенням - відстань у квадраті пропорційна розподілу чи-квадрата з двома ступенями свободи (по одному на кожну координату). Це прямий наслідок одного визначення розподілу chi-квадрата як суми квадратів незалежних стандартних нормальних змінних, оскільки - лінійна комбінація незалежних нормальних змінних з очікуванням Написання загальної дисперсії

xix¯=n1nxiji1nxj
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xiяк , Припущення про анізотропію полягає в тому, що мають той самий розподіл, що і і незалежні від них, тому однаковий результат справедливий для розподілу . Це встановлює константу пропорційності: квадрати відстаней мають розподіл у квадраті з двома ступенями свободи, масштабовану на .σ2
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

Найсуворішим випробуванням цих рівнянь є випадок , оскільки тоді дріб найбільше відрізняється від . Симулюючи експеримент, як для і для , і перенапружуючи гістограми квадратних відстаней масштабованими розподілами чи-квадрата (червоним кольором), ми можемо перевірити цю теорію.n=2n1n1n=2n=40

Малюнок

Кожен рядок показує однакові дані: ліворуч вісь x логарифмічна; праворуч він показує фактичну відстань у квадраті. Справжнє значення для цих симуляцій було встановлено на .σ1

Ці результати для 100 000 ітерацій з і 50 000 ітерацій з . Домовленості між гістограмами та щільністю у квадратику є чудовими.n=2n=40


Хоча σ2невідомо, його можна оцінити різними способами. Наприклад, має бути середня квадратна відстаньn1nσ2 разів більше середнього значення χ22, який 2. Зn=40, наприклад, кошторис σ2 як 4039/2разів перевищує середню відстань у квадраті. Таким чином, оцінкаσ було б 40/78разів відстань RMS. Використання значеньχ22 Потім ми можемо сказати, що:

  • Приблизно на 39% відстаней буде менше 39/40σ^, тому що 39% а χ22 розподіл менше, ніж 1.

  • Приблизно 78% відстаней будуть менше 3 разів 39/40σ^, тому що 78% а χ22 розподіл менше, ніж 3.

І так далі, для будь-якого множника, який ви хочете використовувати замість 1 або 3. Як перевірка, в моделювання дляn=40 Накреслені раніше, фактичні пропорції квадратних відстаней менше 1,2,,10раз булиn1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Теоретичні пропорції є

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

Угода відмінна.


Ось Rкод для проведення та аналізу моделювання.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
Дякую за дуже вичерпну відповідь. Я не можу повністю зрозуміти, як формула RMS може описати стандартне відхилення, не діливши на кількість кульок. Якщо порівнювати його з http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics, вони розділили суму на N. Якщо сума ділиться на N або N-1 (оскільки 40 балів - це лише a вибір з популяції балів?)
K_scheduler

Після повторних розрахунків здається, що я шукаю sqrt (SDx ^ 2 + SDy ^ 2). Це дасть мені радіус для кола, що містить усі кулі з вірогідністю 65%, правда?
K_scheduler

Це еквівалентна формула для RMS, але значення 65% невірно, як пояснено у цій відповіді.
whuber

2
@nali Всі ці моменти чітко прописані у моїй відповіді тут.
whuber

4
@nali Ваші публікації тут виходять за межі пристойності у своїй хамстві та нападках ad hominem . Хоча я не переживаю за те, щоб мене вважали неосвіченим або дурним, але як модератор цього веб-сайту я маю турбуватися про те, щоб зберігати дискурс громадянським, і тому не можу терпіти випуску, яку ви розміщуєте. Відповідно, я видалив ваш останній коментар. Якщо я побачу від вас подібні грубі коментарі, я взагалі видалю їх без подальшого повідомлення, і я (або інші модератори) вживу негайно, щоб обмежити вашу взаємодію на цьому веб-сайті.
whuber

4

Я думаю, що у вас є деякі речі трохи заплутані. Це правда, що відстань не може бути негативною, але це не впливає на розрахунок стандартного відхилення. Хоча це означає, що розподіл відстаней не може бути абсолютно нормальним, воно все одно може бути близьким; але навіть якщо його далеко не нормально, все ж є стандартне відхилення.

Крім того, немає «однобічного» стандартного відхилення - ви можете думати про тести гіпотез (які можуть бути односторонніми або двосторонніми). У своєму заголовку ви кажете, що середнє значення дорівнює 0, але середня відстань не буде дорівнює 0 (якщо кулі не знаходяться у стеку високою 40 куль!), А ви кажете, що є обмеження, якщо кулі будуть опущені приміщення, тоді вони не можуть бути далі від центру, ніж відстань до найближчої стіни. Але якщо деякі кульки не підстрибують до стіни, це не вплине на речі.

Отже, щойно у вас є 40 відстаней, ви обчислюєте стандартне відхилення (і середнє, середнє, міжквартирний діапазон тощо), використовуючи стандартні методи. Ви також можете зробити сюжети відстані (наприклад, квантильний звичайний сюжет, графічний графік), щоб побачити, чи він нормально розподілений (якщо це цікавить).


Дякую, Петре, я не висловився правильно. Дозвольте спробувати уточнити: уявіть сценку зверху. Ви обчислюєте середню відстань, вона буде проілюстрована як коло навколо центру маси (середня відстань = радіус). Тепер +/- std відхилення від цього дасть менший круг та більший круг. Я не хочу знати середнє відхилення середньої відстані до центру маси, а скоріше стандартне відхилення від центру маси назовні. Іншими словами, в радіусі від центру маси 68,2% (одне стандартне відхилення) розташованих куль.
K_scheduler

О, добре. Тоді я думаю, що це не проблема статистики, а математична проблема; знаходження того, куди впаде 68,2%, відомо ... я забув відповідь, але вона передбачаєπ.
Пітер Флом

Можливо, ви маєте рацію у своїй першій відповіді. З того, що я виявив, використовуючи радіальне стандартне відхилення, слід зробити трюк. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler

1

З того часу, як це було задано, минуло деякий час, але відповідь на питання полягає в тому, що це 2D-дистрибутив з назвою розподіл Релея. Тут припущення полягає в тому, що коефіцієнт форми Релея дорівнює як стандартним відхиленням координат X, так і Y. На практиці значення коефіцієнта форми обчислюється із сукупного середнього стандартного відхилення X та Y.

починаючи з

XN(μx,σx2)
, і
YN(μy,σy2)

використовувати звичайний біваріантний нормальний розподіл.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

перевести в точку

(μx,μy)
і припустимо
ρ=0
.

Припустимо також, що

σx2=σy2
тому замініть обидва на
σ2

то 2-D розподіл виражається радіусом навколо точки

(μx,μy)
який відомий як розподіл Релея .

PDF(r;σ)=rσ2exp(r22σ2)
де
σ=σx=σy
і
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Звичайно, це для постійного розподілу. Для зразка всього 40 кульок точного рішення немає. Вам потрібно буде зробити аналіз Монте-Карло із зразком 40 куль. Тейлор, MS та Grubbs, Френк Е. (1975). "Орієнтовні розподіли ймовірності для екстремального поширення" знайшли оцінки для розподілу Chi, а норма-log для цього відповідала б розподілу вибірки.


Правка - Незважаючи на сумніви Вубера, теоретичні пропорції, які він розраховував, такі:

0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933

Від функції CDF сукупні значення Sigma для r (у сигмах) рівні діапазону від:

0-1, 0-2, 0-3, ..., 0-10

є:

0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933


Дякуємо, що назвали розподіл. Однак, (1) не розрізняючи параметр розподілу та оцінки цього параметра, отриманого з даних, (2) не вказуючи (сильні) припущення, необхідні щодо розподілу кульок, та (3), розпливаючись, ви ризикуєте оманливих читачів. Дійсно, незрозуміло, на що посилається ваше "це": чи було б це розподіл місць кульок? (Ні.) Розподіл центру мас? (Так, але з параметром масштабу, який відрізняється від стандартного відхилення кульок.) Чи хотіли б ви уточнити свою відповідь?
whuber

заповнені прогалини ....
MaxW

Дякую за роз’яснення, Макс. Як просту перевірку правильності вашої відповіді розглянемо один бал замість40. Здається, ваша відповідь вимагає розподілу відстані між цією кулькою та центром маси всіх кульок - розподілом Релея. На жаль, у цьому випадку відстань завжди дорівнює нулю. (Питання конкретно описує його як "відстань від центру маси до кожного кулі, яка обчислюється за допомогою простої геометрії.") Це говорить про те, що ваша відповідь може бути помилковою у кожному випадку, в тому числі40кульки.
whuber

Розподіл - приблизно центр маси.
MaxW

CDF налаштований на один бал, звичайно. Від CDF 39% кульок потраплять у коло радіусом σ, 86% у межах 2σ, а 99% у межах 3σ.
MaxW

-1

Нормальний розподіл, як позитивні, так і негативні значення, має сенс, якщо ви визнаєте, що це нормальне розподіл за радіусом або "відстанню від центру". Інша змінна, кут, є випадковою і рівномірно розподілена від 0-пі


Радіус, який ніколи не може бути негативним, точно не матиме нормального розподілу!
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.