Значення, що збільшує стандартне відхилення


12

Мене спантеличує таке твердження:

"Щоб збільшити стандартне відхилення набору чисел, потрібно додати значення, яке більше ніж одне стандартне відхилення від середнього"

Що є доказом цього? Звичайно, я знаю, як ми визначаємо стандартне відхилення, але цю частину я, здається, якось пропускаю. Будь-які коментарі?


1
Ви намагалися розробити алгебру, що займається?
Алекос Пападопулос

Так, я маю. Я відняв дисперсію вибірки n значень від дисперсії значень n + 1, і я вимагав, щоб різниця була більше нуля. Але я не можу повністю зрозуміти це.
ДжонК

3
Один з найпростіших способів - диференціювати алгоритм Велфорда відносно нового значення а потім інтегрувати, щоб показати, що якщо введення збільшує дисперсію, то де - середнє значення перших значень, а - оцінка їх дисперсії. x n ( x n - ˉ x n - 1 ) 2nxnxn ˉ x n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber

Гаразд, але це може бути показано простою алгеброю? Мої знання статистики не такі передові.
ДжонК

@JohnK, можете поділитися джерелом цитати?
Pe Dro

Відповіді:


20

Для будь-яких чисел із середнім , дисперсія задається Застосування для заданого набору чисел які ми для зручності в експозиції вважаємо мати середнє значення , маємо це y 1 , y 2 , , y N ˉ y = 1Ny1,y2,,yN σ 2y¯=1Ni=1Nyi(1)nx1,

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nˉ x = 0 σ 2 = 1x1,x2,xnx¯=0 x n + 1 1
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
Якщо тепер до цього набору даних додамо нове спостереження , то нове середнє значення набору даних поки нова дисперсія Отжемає бути більше, ніжxn+1σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
| xn+1| σ
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1|σ1+1n або, загалом, має відрізнятися від середнього початкового набору даних більш ніж , щоб розширений набір даних мав більшу дисперсію, ніж оригінальний набір даних. Дивіться також відповідь Рея Коопмана, в якій вказується, що нова дисперсія більша, рівна або менша, ніж початкова дисперсія відповідно до відрізняється від середньої на більш, ніж рівно або менше .ˉ x σ xn+1x¯ xn+1σσ1+1nxn+1σ1+1n

5
+1 Нарешті, хтось це зрозуміє правильно; ;-) Затвердження, яке потрібно довести, є правильним; це просто не тісно. Між іншим, ви також можете вибрати одиниці вимірювання для складання , що додатково спрощує обчислення, зменшивши його приблизно до двох рядків. σ2=1
whuber

Я пропоную вам використовувати S замість сигми в першому наборі рівнянь і дякую за виведення. Це було добре знати :)
Теоден

3

Неймовірний вислів дає необхідну, але недостатню умову для збільшення стандартного відхилення. Якщо старий розмір вибірки , стара середнє значення , старе стандартне відхилення , і нова точка додаються до даних, то нове стандартне відхилення буде менше, дорівнює або більше , ніж по якменше, рівне або більше .m s xnmsx| х - м | s s|xm|s1+1/n


1
У вас є доказ під рукою?
JohnK

2

Залишаючи осторонь алгебру (яка також працює), подумайте про це так: Стандартне відхилення - квадратний корінь дисперсії. Дисперсія - це середнє значення квадратних відстаней від середнього. Якщо ми додамо значення, яке ближче до середнього, ніж це, дисперсія зменшиться. Якщо ми додамо значення, яке знаходиться далі від середнього, ніж це, воно зростатиме.

Це стосується будь-яких середніх значень, які не мають негативу. Якщо додати значення, яке вище середнього, середнє збільшується. Якщо додати значення, яке менше, воно зменшується.


Я також хотів би бачити суворий доказ. Хоча я розумію принцип, я здивований тим фактом, що значення повинно бути не менше 1 відхилення від середнього. Чому саме 1?
ДжонК

Я не бачу, що бентежить. Дисперсія - середня. Якщо додати щось більше, ніж середнє (тобто більше 1 сд), воно збільшується. Але я не один для офіційних доказів
Пітер Флом - Відновлення Моніки

Він може бути більше середнього на 0,2 стандартних відхилень. Чому б тоді він не збільшився?
ДжонК

Ні, не більша за середнє значення даних, більша за дисперсію, яка є середньою величиною відстані у квадраті.
Пітер Флом - Відновити Моніку

4
Це заплутано, оскільки включення нового значення змінює середнє значення, тому змінюються всі залишки. Можна припустити, що навіть коли нове значення далеке від старого середнього, його внесок у СД можна було б компенсувати зменшенням суми квадратів залишків інших значень. Це одна з багатьох причин, за якими суворі докази корисні: вони забезпечують не тільки безпеку в знаннях, але й розуміння (і навіть нову інформацію). Наприклад, доказ покаже, що вам потрібно додати нове значення, яке суворо перевищує один SD від середнього, щоб збільшити SD.
whuber

2

Я розпочну вас з алгебри, але не сприйматиму це зовсім так. Спочатку стандартизуйте свої дані, віднісши середнє значення та діливши на стандартне відхилення:Зауважте, що якщо знаходиться в межах одного стандартного відхилення середнього значення, становить від -1 до 1. Z буде рівним 1, якщо було б рівно на один sd від середнього. Потім подивіться на ваше рівняння для стандартного відхилення: Що відбувається з якщо знаходиться між -1 і 1?

Z=xμσ.
Z x σ = xZx σZN
σ=i=1NZi2N1
σZN

Число, абсолютне значення якого менше 1, при квадраті воно також буде менше 1 в абс. значення. Але я не розумію, що навіть якщо Z_N потрапляє до цієї категорії, ми додаємо додатне значення до σ, так чи не повинно воно збільшуватися?
ДжонК

Так, ви додаєте додатне значення, але воно буде меншим, ніж ваше середнє відхилення від середнього значення, і тому зменшить сигми. Можливо, було б більше сенсу розглядати значення як . ZN+1
wcampbell

1
1) Не забувайте, додаючи це значення, ви також збільшуєте на 1. 2) Ви не додаєте цього значення до , ви додаєте його до . σ Z 2 iNσZi2
jbowman

Саме те, що я намагався висловити!
wcampbell

Це не так просто: у цій відповіді ви обчислили SD так, ніби нове значення вже було частиною набору даних. Натомість повинні бути стандартизовані щодо SD та середнього значення лише для перших значень , а не для всіх. N - 1ZiN1
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.