Щільність нормального розподілу по мірі збільшення розмірів


15

Питання, яке я хочу задати, таке: як змінюється частка вибірок в межах 1 SD середнього значення нормального розподілу зі збільшенням кількості змінних?

(Майже) всім відомо, що при 1-мірному нормальному розподілі 68% зразків можна знайти в межах 1 стандартного відхилення середнього значення. Як щодо розмірів 2, 3, 4, ...? Я знаю, що стає менше ... але на скільки (точно)? Було б зручно мати таблицю, на якій зображені цифри для 1, 2, 3 ... 10 розмірів, а також 1, 2, 3 ... 10 SD. Хтось може вказати на таку таблицю?

Трохи більше контексту - у мене є датчик, який забезпечує дані по 128 каналам. Кожен канал піддається (незалежному) електричному шуму. Коли я відчуваю об'єкт калібрування, я можу провести середню кількість вимірювань і отримати середнє значення по 128 каналам, а також 128 окремих стандартних відхилень.

Але ... якщо мова йде про індивідуальні миттєві показання, дані не реагують настільки, як 128 індивідуальних зчитувань, як на одне читання (до) 128-мінної величини вектора. Безумовно, це найкращий спосіб розглянути кілька критичних показань, які ми приймаємо (як правило, 4-6 із 128).

Хочеться відчути, що таке "нормальна" зміна і що "зовнішнє" в цьому векторному просторі. Я впевнений, що бачив таку таблицю, як описана нами, яка стосуватиметься подібної ситуації - хто-небудь може вказати на одну?


Будь ласка, чи можу я мати лише емпіричні відповіді - я не розумію більшості математичних позначень.
оматай

Відповіді:


19

Давайте візьмемо : кожен X i є нормальним N ( 0 , 1 )X=(X1,,Xd)N(0,I)XiN(0,1) і Xi є незалежними - я думаю, що це ви маєте на увазі з більш високими розмірами.

Ви б сказали, що знаходиться в межах 1 sd середнього значення, коли | | X | | < 1 (відстань між X та його середнім значенням менше 1). Тепер | | X | | 2 = X 2 1 + + X 2 dX||X||<1 тому це відбувається з ймовірністю P ( ξ < 1 ), де ξ χ 2 ( d||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). Ви можете знайти це в хороших чі квадратних столах ...

Ось кілька значень:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

І за 2 сд:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

Ви можете отримати ці значення в R за допомогою комарів pchisq(1,df=1:10) , pchisq(4,df=1:10)і т.д.

Post Scriptum Як кардинал вказував у коментарях, можна оцінити асимптотичну поведінку цих ймовірностей. CDF змінної F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d) деγ(s,y)=y0ts-1e-tdt-неповнаγ-функція, а класичнаΓ(s)=0ts-1e-tдт.

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

Коли - ціле число, повторна інтеграція по частинах показує, що P ( s , y ) = e - y k = s y kс що є хвостом CDF розповсюдження Пуассона.

П(с,у)=е-ук=сукк!,

Тепер ця сума переважає свій перший член (багато завдяки кардиналу): для великихs. Ми можемо застосувати це, колиdє парним: P(ξ<x)=P(d/2,x/2)1П(с,у)усс!е-усг

П(ξ<х)=П(г/2,х/2)1(г/2)!(х2)г/2е-х/21πге12(г-х)(хг)г21πе-12хг-12г,
для великих навіть г, передостанна еквівалентність за формулою Стірлінга. З цієї формули ми бачимо, що асимптотичний розпад відбувається дуже швидког збільшити.

Welcome to our site, Elvis! Nice answer. (+1)
whuber

1
(+1) Good answer. Here are a couple suggestions for your consideration: (1) It might help to make explicit what ξ is for clarity's sake, (2) briefly give an intuitive argument for the choice you've made for the meaning of "one standard deviation" in this context and why it is even well-defined in the first place, and (3) add a statement regarding the growth of this quantity as a function of d. (The OP asks for only "empirical" answers, but other readers might appreciate a small mathematical addendum.)
cardinal

Thank you for your comments. I didn’t think this answer would receive much attention! It is true that this is a nice form of the curse of dimensionality... @cardinal concerning (3) I don’t know any asymptotic equivalent of the incomplete gamma function when the first parameters goes to infinity, the second being fixed, this is not easy! A rough majoration could be done, I may write that later.
Elvis

2
Regarding (3), to avoid a computation, you can employ the following argument: Let d be even and such that d=2k. Note that Zi=X2i12+X2i2 is an Exp(1/2) random variable. So X2=i=1kZi. But, then X2 is just the time until the kth renewal of a Poisson process with rate 1/2. So P(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!. The tail of the Poisson is dominated by the leading term, so P(X2<1)e1/22k/Γ(k+1) as d (Again: k=d/2).
cardinal

1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.