Як "підбити" стандартне відхилення?


68

У мене є середньомісячне значення та стандартне відхилення, що відповідає цьому середньому. Зараз я обчислюю річну середню як суму середньомісячних середніх, як я можу представити стандартне відхилення для підсумованого середнього?

Наприклад, враховуючи вихід з вітроелектростанції:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Можна сказати, що в середньому році вітроелектростанція виробляє 10 358 МВт · г, але яке стандартне відхилення відповідає цій цифрі?


3
Дискусія після видаленої тепер відповіді відзначила можливу неоднозначність у цьому запитанні: чи шукаєте ви SD середньомісячних значень чи хочете відновити SD усіх початкових значень, з яких ці середні були побудовані? У цій відповіді також правильно вказано, що якщо ви хочете останнього, вам знадобляться числа значень, що беруть участь у кожному середньому місяці.
whuber

1
У коментарі до іншої видаленої відповіді було вказано, що дивно обчислювати середнє значення як суму : напевно, ви маєте на увазі, що ви усереднюєте щомісячні середні показники. Але якщо ви хочете оцінити середнє значення всіх вихідних даних, то така процедура зазвичай не є хорошою: потрібна середньозважена середня кількість. І звичайно, неможливо дати хорошу відповідь на ваше запитання про "SD для підсумованих середніх", поки не стане зрозуміло, що таке "підсумований середній" і що він призначений представляти. Будь ласка, уточніть це для нас.
whuber

@whuber Я додав приклад для уточнення. Математично я вважаю, що сума середніх
розмірів

2
Так, klonq, це дуже розумний запит. Однак ці відповіді було видалено власником, а не громадою. Щоб зберегти їхню цінність, я спробував передати (мій погляд) ключові ідеї, що виникають у цих відповідях та їх коментарях. До речі, ваші останні зміни дуже корисні: людям подобається бачити приклади.
whuber

1
Ласкаво просимо на сайт, @Hayden Це не є відповіддю на питання ОП. Будь ласка, використовуйте лише поле "Ваша відповідь" для надання відповідей. Якщо у вас є додаткове запитання, натисніть [ASK QUESTION]вгорі і задайте його там, тоді ми зможемо вам допомогти належним чином. Оскільки ви тут новачок, ви можете скористатися нашою екскурсією , яка містить інформацію для нових користувачів.
gung

Відповіді:


66

Коротка відповідь: Ви оцінюєте середні дисперсії ; то ви можете взяти квадратний корінь, щоб отримати середнє стандартне відхилення .


Приклад

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

І тоді середнє стандартне відхилення - цеsqrt(53,964) = 232


Від суми нормально розподілених випадкових величин :

Якщо і є незалежними випадковими змінними, які зазвичай розподіляються (і тому також спільно так), то їх сума також нормально розподіляєтьсяYXY

... сума двох незалежних нормально розподілених випадкових величин є нормальною, середнє значення - сума двох засобів, а її дисперсія - сума двох дисперсій

І від звичайного розподілу суми Вольфрама Альфи :

Дивовижно, що розподіл суми двох нормально розподілених незалежних змінних і із засобами та дисперсіями та відповідно - це ще один нормальний розподілY ( μ X , σ 2 X ) ( μ Y , σ 2 Y )XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

що має середнє значення

μX+Y=μX+μY

і дисперсія

σX+Y2=σX2+σY2

Для ваших даних:

  • сума: 10,358 MWh
  • дисперсія: 647,564
  • стандартне відхилення: 804.71 ( sqrt(647564) )

введіть тут опис зображення

Отже, щоб відповісти на ваше запитання:

  • Як "підбити" стандартне відхилення ?
  • Ви підсумовуєте їх квадратично:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Концептуально ви підсумовуєте відхилення, потім берете квадратний корінь, щоб отримати стандартне відхилення.


Оскільки мені було цікаво, я хотів дізнатися середню місячну середню потужність та її стандартне відхилення . Через індукцію нам потрібно 12 нормальних розподілів, які:

  • сума в середньому 10,358
  • сума до дисперсії 647,564

Це було б 12 середньомісячних розподілів:

  • означає 10,358/12 = 863.16
  • дисперсія 647,564/12 = 53,963.6
  • стандартне відхилення sqrt(53963.6) = 232.3

введіть тут опис зображення

Ми можемо перевірити наші середньомісячні розподіли, додавши їх 12 разів, щоб побачити, що вони дорівнюють річному розподілу:

  • Середнє значення: 863.16*12 = 10358 = 10,358( правильно )
  • Варіант: 53963.6*12 = 647564 = 647,564( правильний )

Примітка : я formula codeзалишлю це комусь, хто знає езотеричну математику латексу, щоб перетворити свої формули зображення, і у формати формули stackexchange.

Редагувати : я перемістив короткий, до точки, відповіді вгорі. Тому що я повинен був зробити це ще раз сьогодні, але хотів перевірити ще раз , що я в середньому на відхилення .


3
Це, здається, припускає, що місяці є некорельованими - ви зробили це припущення явним-небудь десь? Крім того, навіщо нам приносити нормальний розподіл? Якщо ми говоримо лише про дисперсію, то це здається непотрібним - наприклад, дивіться мою відповідь тут
Макрос

1
@Marco Оскільки я краще думаю на фотографіях, і це робить все легше зрозуміти.
Ян Бойд

2
@Marco Також я вважаю, що це питання розпочалося на (зараз неіснуючому) сайті stats.stackexchange. Стінка формул є менш доступною , ніж більш простими, графічними, менш суворими процедури.
Ян Бойд

2
Сумніваюся, це правильно. Уявіть два набори даних із кожним лише одним вимірюванням. Їх дисперсія кожного набору дорівнює 0, але множина обох вимірювань має відхилення більше 0, якщо точки даних відрізняються.
Njol

1
@Njol, я думаю, що тому ми припускаємо, що всі змінні мають нормальний розподіл. І ми можемо це зробити тут, тому що говоримо про фізичне вимірювання. У вашому прикладі обидві змінні зазвичай не розподіляються.
tworec

11

Це давнє запитання, але прийнята відповідь насправді не є правильною або повною. Користувач хоче обчислити стандартне відхилення за 12-місячними даними, де середнє та стандартне відхилення вже обчислюються протягом кожного місяця. Якщо припустити, що кількість вибірок у кожному місяці однакова, то можна обчислити середню вибірку та дисперсію за рік за даними кожного місяця. Для простоти припустимо, що у нас є два набори даних:

X={x1,....xN}

Y={y1,....,yN}

з відомими значеннями середньої вибірки та дисперсією вибірки, , , , .μxμyσx2σy2

Тепер ми хочемо розрахувати ті самі оцінки

Z={x1,....,xN,y1,...,yN} .

Вважайте, що , обчислюються як:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Щоб оцінити середнє значення та відхилення від загальної сукупності, нам потрібно обчислити:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 що вказано у прийнятій відповіді. Щодо варіації, однак історія інша:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Отже, якщо у вас є дисперсія для кожного підмножини і ви хочете відхилення у всьому наборі, то ви можете середньостатистично відзначати відхилення кожного підмножини, якщо всі вони мають однакове середнє значення. В іншому випадку потрібно додати дисперсію середнього значення для кожного підмножини.

Скажімо, що за перше півріччя ми виробляємо рівно 1000 МВт · г щодня, а за секунди - ми виробляємо 2000 МВт · г на день. Тоді середня величина та дисперсія виробництва енергії в першій та другій половині становлять 1000, а середня 2000 - для середньої, а дисперсія - 0 для обох половин. Зараз нас можуть зацікавити дві різні речі:

1- Ми хочемо обчислити дисперсію виробництва енергії за весь рік : тоді, усереднюючи дві дисперсії, ми доходимо до нуля, що не вірно, оскільки енергія на день протягом усього року не є постійною. У цьому випадку нам потрібно додати дисперсію всіх засобів від кожного підмножини. Математично в цьому випадку випадкова величина, що цікавить, - це виробництво енергії на день. У нас є вибіркова статистика за підмножинами, і ми хочемо обчислити вибіркову статистику протягом більш тривалого часу.

2- Ми хочемо обчислити дисперсію виробництва енергії на рік: Іншими словами, ми зацікавлені в тому, наскільки змінюється виробництво енергії з одного року на інший. У цьому випадку усереднення дисперсії призводить до правильної відповіді, яка дорівнює 0, оскільки щороку ми виробляємо рівно 1500 МВт в середньому. Математично в цьому випадку випадкова величина, що становить інтерес, - це середнє виробництво енергії в день, де усереднення проводиться протягом усього року.


1

Я вважаю, що, можливо, вас справді цікавить, хоча це стандартна помилка, а не стандартне відхилення.

Стандартна похибка середнього значення (SEM) - це стандартне відхилення оцінки вибірки середнього значення популяції, і це дасть вам змогу оцінити, наскільки хороша ваша щорічна оцінка MWh.

Обчислити це дуже просто: якщо ви використали проб для отримання середньомісячних середніх МВт-годин і стандартних відхилень, ви просто обчислите стандартне відхилення, як запропонував @IanBoyd, і нормалізуйте його за загальним розміром вашої вибірки. Тобтоs = n

s=s12+s22++s12212×n

1

Я хотів би ще раз підкреслити неправильність частини прийнятої відповіді. Формулювання питання призводить до плутанини.

Питання має Середнє та StdDev кожного місяця, але незрозуміло, який тип підмножини використовується. Це в середньому 1 вітрогенератор усього господарства або середньодобовий показник усього господарства? Якщо це середньоденне значення для кожного місяця, ви не можете скласти середньомісячне значення, щоб отримати середньорічне значення, оскільки вони не мають однакового знаменника. Якщо це середня одиниця, запитання повинно бути зазначено

Можна сказати, що в середньому році кожна турбіна у вітроелектростанції виробляє 10 358 МВт · г, ...

Замість

Можна сказати, що в середньому році вітроелектростанція виробляє 10 358 МВт · г, ...

Більше того, Стандартне відхилення або дисперсія - це порівняння із власним середнім значенням. Він НЕ містить жодної інформації щодо середнього значення для всього набору.

Приклад варіації

Зображення не дуже правильне, але воно передає загальну думку. Уявімо собі вихід 1 вітроелектростанції, як на зображенні. Як бачите, "локальна" дисперсія не має нічого спільного з "глобальною" дисперсією, незалежно від того, як ви додаєте чи множите їх. Не можна передбачити дисперсію року, використовуючи дисперсію в 2 півріччя. Так, у прийнятій відповіді, хоча підрахунок суми правильний, поділ на 12 для отримання місячного числа нічого не означає. . З трьох розділів перший і останній розділи неправильні, другий - правильний.

Знову ж таки, це дуже неправильне застосування, будь ласка, не слідкуйте за ним, інакше це призведе до неприємностей. Щойно обчислюється для всієї справи, використовуючи загальний річний / щомісячний вихід кожної одиниці в якості точок даних залежно від того, чи хочете ви річну чи місячну кількість, це має бути правильною відповіддю. Ви, мабуть, хочете чогось подібного. Це мої випадково генеровані числа. Якщо у вас є дані, результат у комірці O2 повинен бути вашою відповіддю.

введіть тут опис зображення


Дуже дякую за образ, який мені дуже допоміг зрозуміти, чому прийнята відповідь є неповною і може бути навіть помилковою. Ви дуже добре це пояснили, дякую!
Кей

Це свідчить про небезпеку голосування. Люди, які голосують, - це люди, які не знають відповіді. На противагу кодуванню, люди, які голосують, - це люди, які діють код, чим більше голосів, тим краще відповідь. Що стосується статистики / математики, то більше голосів означає лише привабливіше.
Там Ле
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.