Це давнє запитання, але прийнята відповідь насправді не є правильною або повною. Користувач хоче обчислити стандартне відхилення за 12-місячними даними, де середнє та стандартне відхилення вже обчислюються протягом кожного місяця. Якщо припустити, що кількість вибірок у кожному місяці однакова, то можна обчислити середню вибірку та дисперсію за рік за даними кожного місяця. Для простоти припустимо, що у нас є два набори даних:
X={x1,....xN}
Y={y1,....,yN}
з відомими значеннями середньої вибірки та дисперсією вибірки, , , , .μxμyσ2xσ2y
Тепер ми хочемо розрахувати ті самі оцінки
Z={x1,....,xN,y1,...,yN} .
Вважайте, що , обчислюються як:μxσ2x
μx=∑Ni=1xiN
σ2x=∑Ni=1x2iN−μ2x
Щоб оцінити середнє значення та відхилення від загальної сукупності, нам потрібно обчислити:
μz=∑Ni=1xi+∑Ni=1yi2N=(μx+μy)/2
що вказано у прийнятій відповіді. Щодо варіації, однак історія інша:
σ2z=∑Ni=1x2i+∑Ni=1y2i2N−μ2z
σ2z=12(∑Ni=1x2iN−μ2x+∑Ni=1y2iN−μ2y)+12(μ2x+μ2y)−(μx+μy2)2
σ2z=12(σ2x+σ2y)+(μx−μy2)2
Отже, якщо у вас є дисперсія для кожного підмножини і ви хочете відхилення у всьому наборі, то ви можете середньостатистично відзначати відхилення кожного підмножини, якщо всі вони мають однакове середнє значення. В іншому випадку потрібно додати дисперсію середнього значення для кожного підмножини.
Скажімо, що за перше півріччя ми виробляємо рівно 1000 МВт · г щодня, а за секунди - ми виробляємо 2000 МВт · г на день. Тоді середня величина та дисперсія виробництва енергії в першій та другій половині становлять 1000, а середня 2000 - для середньої, а дисперсія - 0 для обох половин. Зараз нас можуть зацікавити дві різні речі:
1- Ми хочемо обчислити дисперсію виробництва енергії за весь рік : тоді, усереднюючи дві дисперсії, ми доходимо до нуля, що не вірно, оскільки енергія на день протягом усього року не є постійною. У цьому випадку нам потрібно додати дисперсію всіх засобів від кожного підмножини. Математично в цьому випадку випадкова величина, що цікавить, - це виробництво енергії на день. У нас є вибіркова статистика за підмножинами, і ми хочемо обчислити вибіркову статистику протягом більш тривалого часу.
2- Ми хочемо обчислити дисперсію виробництва енергії на рік: Іншими словами, ми зацікавлені в тому, наскільки змінюється виробництво енергії з одного року на інший. У цьому випадку усереднення дисперсії призводить до правильної відповіді, яка дорівнює 0, оскільки щороку ми виробляємо рівно 1500 МВт в середньому. Математично в цьому випадку випадкова величина, що становить інтерес, - це середнє виробництво енергії в день, де усереднення проводиться протягом усього року.