Чому ми використовуємо упереджену та оманливу формулу стандартного відхилення для нормального розподілу?


20

Мені це стало трохи шоком, коли я вперше зробив моделювання нормального розподілу Монте-Карло і виявив, що середнє значення стандартних відхилень від зразків, які мають розмір вибірки лише , виявилося значно меншим ніж, тобто, усереднюючи разів, використовується для генерування населення. Однак це добре відомо, якби рідко згадували, і я начебто знав, чи не робив би симуляції. Ось моделювання.100100n=22πσ

Ось приклад прогнозування 95% довірчих інтервалів використанням 100, , оцінок і .N(0,1)n=2SDE(sn=2)=π2SD

 RAND()   RAND()    Calc    Calc    
 N(0,1)   N(0,1)    SD      E(s)    
-1.1171  -0.0627    0.7455  0.9344  
 1.7278  -0.8016    1.7886  2.2417  
 1.3705  -1.3710    1.9385  2.4295  
 1.5648  -0.7156    1.6125  2.0209  
 1.2379   0.4896    0.5291  0.6632  
-1.8354   1.0531    2.0425  2.5599  
 1.0320  -0.3531    0.9794  1.2275  
 1.2021  -0.3631    1.1067  1.3871  
 1.3201  -1.1058    1.7154  2.1499  
-0.4946  -1.1428    0.4583  0.5744  
 0.9504  -1.0300    1.4003  1.7551  
-1.6001   0.5811    1.5423  1.9330  
-0.5153   0.8008    0.9306  1.1663  
-0.7106  -0.5577    0.1081  0.1354  
 0.1864   0.2581    0.0507  0.0635  
-0.8702  -0.1520    0.5078  0.6365  
-0.3862   0.4528    0.5933  0.7436  
-0.8531   0.1371    0.7002  0.8775  
-0.8786   0.2086    0.7687  0.9635  
 0.6431   0.7323    0.0631  0.0791  
 1.0368   0.3354    0.4959  0.6216  
-1.0619  -1.2663    0.1445  0.1811  
 0.0600  -0.2569    0.2241  0.2808  
-0.6840  -0.4787    0.1452  0.1820  
 0.2507   0.6593    0.2889  0.3620  
 0.1328  -0.1339    0.1886  0.2364  
-0.2118  -0.0100    0.1427  0.1788  
-0.7496  -1.1437    0.2786  0.3492  
 0.9017   0.0022    0.6361  0.7972  
 0.5560   0.8943    0.2393  0.2999  
-0.1483  -1.1324    0.6959  0.8721  
-1.3194  -0.3915    0.6562  0.8224  
-0.8098  -2.0478    0.8754  1.0971  
-0.3052  -1.1937    0.6282  0.7873  
 0.5170  -0.6323    0.8127  1.0186  
 0.6333  -1.3720    1.4180  1.7772  
-1.5503   0.7194    1.6049  2.0115  
 1.8986  -0.7427    1.8677  2.3408  
 2.3656  -0.3820    1.9428  2.4350  
-1.4987   0.4368    1.3686  1.7153  
-0.5064   1.3950    1.3444  1.6850  
 1.2508   0.6081    0.4545  0.5696  
-0.1696  -0.5459    0.2661  0.3335  
-0.3834  -0.8872    0.3562  0.4465  
 0.0300  -0.8531    0.6244  0.7826  
 0.4210   0.3356    0.0604  0.0757  
 0.0165   2.0690    1.4514  1.8190  
-0.2689   1.5595    1.2929  1.6204  
 1.3385   0.5087    0.5868  0.7354  
 1.1067   0.3987    0.5006  0.6275  
 2.0015  -0.6360    1.8650  2.3374  
-0.4504   0.6166    0.7545  0.9456  
 0.3197  -0.6227    0.6664  0.8352  
-1.2794  -0.9927    0.2027  0.2541  
 1.6603  -0.0543    1.2124  1.5195  
 0.9649  -1.2625    1.5750  1.9739  
-0.3380  -0.2459    0.0652  0.0817  
-0.8612   2.1456    2.1261  2.6647  
 0.4976  -1.0538    1.0970  1.3749  
-0.2007  -1.3870    0.8388  1.0513  
-0.9597   0.6327    1.1260  1.4112  
-2.6118  -0.1505    1.7404  2.1813  
 0.7155  -0.1909    0.6409  0.8033  
 0.0548  -0.2159    0.1914  0.2399  
-0.2775   0.4864    0.5402  0.6770  
-1.2364  -0.0736    0.8222  1.0305  
-0.8868  -0.6960    0.1349  0.1691  
 1.2804  -0.2276    1.0664  1.3365  
 0.5560  -0.9552    1.0686  1.3393  
 0.4643  -0.6173    0.7648  0.9585  
 0.4884  -0.6474    0.8031  1.0066  
 1.3860   0.5479    0.5926  0.7427  
-0.9313   0.5375    1.0386  1.3018  
-0.3466  -0.3809    0.0243  0.0304  
 0.7211  -0.1546    0.6192  0.7760  
-1.4551  -0.1350    0.9334  1.1699  
 0.0673   0.4291    0.2559  0.3207  
 0.3190  -0.1510    0.3323  0.4165  
-1.6514  -0.3824    0.8973  1.1246  
-1.0128  -1.5745    0.3972  0.4978  
-1.2337  -0.7164    0.3658  0.4585  
-1.7677  -1.9776    0.1484  0.1860  
-0.9519  -0.1155    0.5914  0.7412  
 1.1165  -0.6071    1.2188  1.5275  
-1.7772   0.7592    1.7935  2.2478  
 0.1343  -0.0458    0.1273  0.1596  
 0.2270   0.9698    0.5253  0.6583  
-0.1697  -0.5589    0.2752  0.3450  
 2.1011   0.2483    1.3101  1.6420  
-0.0374   0.2988    0.2377  0.2980  
-0.4209   0.5742    0.7037  0.8819  
 1.6728  -0.2046    1.3275  1.6638  
 1.4985  -1.6225    2.2069  2.7659  
 0.5342  -0.5074    0.7365  0.9231  
 0.7119   0.8128    0.0713  0.0894  
 1.0165  -1.2300    1.5885  1.9909  
-0.2646  -0.5301    0.1878  0.2353  
-1.1488  -0.2888    0.6081  0.7621  
-0.4225   0.8703    0.9141  1.1457  
 0.7990  -1.1515    1.3792  1.7286  

 0.0344  -0.1892    0.8188  1.0263  mean E(.)
                    SD pred E(s) pred   
-1.9600  -1.9600   -1.6049 -2.0114    2.5%  theor, est
 1.9600   1.9600    1.6049  2.0114   97.5%  theor, est
                    0.3551 -0.0515    2.5% err
                   -0.3551  0.0515   97.5% err

Перетягніть повзунок вниз, щоб побачити великі підсумки. Тепер я використовував звичайний оцінювач SD для обчислення 95% довірчих інтервалів приблизно середнього нуля, і вони вимикаються на 0,3551 одиниці стандартного відхилення. Оцінювач E (s) відключений лише 0,0515 одиниць стандартного відхилення. Якщо оцінювати стандартне відхилення, стандартну похибку середнього значення або t-статистику, може виникнути проблема.

Мої міркування полягали в наступному: середнє значення сукупності, , двох значень може бути де завгодно відносно і, безумовно, не розташоване на , що останнє становить абсолютну мінімальну можливу суму в квадраті, щоб ми істотно недооцінювали , як слідx 1 x 1 + x 2μx1 σx1+x22σ

wlog нехай , тоді дорівнює , найменш можливий результат.Σ n i = 1 ( x i - ˉ x ) 2 2 ( dx2x1=dΣi=1n(xix¯)22(d2)2=d22

Це означає, що стандартне відхилення обчислюється як

SD=Σi=1n(xix¯)2n1 ,

- упереджений оцінювач стандартного відхилення населення ( ). Зауважимо, що у цій формулі ми зменшуємо ступеня свободи на 1 і ділимо на , тобто робимо деяку корекцію, але це лише асимптотично правильно, і було б кращим правилом . Для нашого прикладу формула дала б нам , статистично неправдоподібне мінімальне значення як , де краще очікуване значення ( ) будеп п - 1 п - 3 / 2 х 2 - х 1 = d SD S D = Dσnn1n3/2x2x1=dSDµˉxsE(s)=SD=d20.707dμx¯sn<10SDσn25n<25n=1000E(s)=π2d2=π2d0.886d. Для звичайного розрахунку, для , и страждає від дуже значної недооцінки називається невелика кількість зміщення , який тільки наближається до 1% недооцінки , коли становить приблизно . Оскільки багато біологічних експериментів мають , це справді проблема. При похибка становить приблизно 25 частин на 100 000. Загалом, корекція зміщення невеликої кількості означає, що об'єктивний оцінювач стандартного відхилення популяції від нормального розподілу єn<10SDσn25n<25n=1000

E(s)=Γ(n12)Γ(n2)Σi=1n(xix¯)22>SD=Σi=1n(xix¯)2n1.

З Вікіпедії під ліцензуванням творчих оголошень є сюжет недооцінки SDσ <a title = "Від Rb88guy (власна робота) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) або GFDL (http://www.gnu.org/copyleft/fdl .html)], через Wikimedia Commons "href =" https://commons.wikimedia.org/wiki/File%3AStddevc4factor.jpg "> <img width =" 512 "alt =" Stddevc4factor "src =" https: // upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg "/> </a>

Оскільки SD - це упереджений оцінювач стандартного відхилення популяції, він не може бути мінімальною дисперсійною неупередженою оцінкою MVUE стандартного відхилення популяції, якщо ми не задоволені тим, що це MVUE як , що я, наприклад, не є.n

Щодо ненормальних розподілів та приблизно неупередженого прочитайте це .SD

Тепер постає питання Q1

Чи можна довести, що вище MVUE для нормального розподілу розміру вибірки , де додатне ціле число більше одиниці?σ n nE(s)σnn

Підказка: (але не відповідь) див. Як я можу знайти стандартне відхилення вибіркового стандартного відхилення від нормального розподілу? .

Наступне питання, Q2

Хто-небудь, будь ласка, пояснить мені, чому ми використовуємо чи інакше, оскільки він явно упереджений і вводить в оману? Тобто, чому б не використовувати для більшості всього? SDE(s)Додатково у відповідях нижче з'ясувалося, що дисперсія є неупередженою, але квадратний корінь упереджений. Я б просив, щоб відповіді стосувалися питання про те, коли слід використовувати неупереджене стандартне відхилення.

Як виявляється, часткова відповідь полягає в тому, що щоб уникнути упередженості в моделюванні вище, відхилення могли бути усередненими, а не значеннями SD. Для того, щоб побачити ефект цього, якщо ми квадратируємо стовпчик SD вище і середні ці значення отримаємо 0,9994, квадратний корінь якого є оцінкою стандартного відхилення 0,9996915 і похибка для якого становить лише 0,0006 для 2,5% хвоста і -0.0006 для хвоста на 95%. Зауважте, що це тому, що відхилення є адитивними, тому усереднення їх є процедурою з низькою помилкою. Однак стандартні відхилення є упередженими, і в тих випадках, коли у нас немає розкоші використовувати відхилення в якості посередника, нам все-таки потрібна корекція невеликої кількості. Навіть якщо ми можемо використовувати дисперсію як посередника, в цьому випадку дляn=100, мала корекція вибірки пропонує помножити квадратний корінь неупередженої дисперсії 0,9996915 на 1,002528401 на 1,002219148 як неупереджену оцінку стандартного відхилення. Так, так, ми можемо затягувати з коригуванням невеликих чисел, але чи повинні ми цілком ігнорувати це?

Питання тут полягає в тому, коли ми повинні використовувати корекцію невеликих чисел, на відміну від ігнорування її використання, і переважно ми уникали її використання.

Ось ще один приклад: мінімальна кількість точок у просторі для встановлення лінійної тенденції, що має помилку, - три. Якщо ми підходимо до цих точок звичайними найменшими квадратами, то результат для багатьох таких припадків - складений нормальний залишковий малюнок, якщо є нелінійність і наполовину нормальний, якщо є лінійність. У напів нормальному випадку наше значення розподілу вимагає невеликої корекції числа. Якщо ми спробуємо один і той же трюк з 4 і більше балами, розподіл, як правило, не буде нормальним, або його легко охарактеризувати. Чи можемо ми використовувати варіацію, щоб якось поєднати ці 3-бальні результати? Можливо, можливо, ні. Однак уявити проблеми легше з точки зору відстаней і векторів.


Коментарі не для розширеного обговорення; ця розмова переміщена до чату .
whuber

3
Q1: Дивіться теорему Леманна-Шеффе.
Scortchi

1
Ненульова зміщення оцінки не обов'язково є недоліком. Наприклад, якщо ми хочемо мати точний оцінювач під квадратними втратами, ми готові викликати упередження до тих пір, поки це зменшить дисперсію на досить велику суму. Ось чому (упереджені) регуляризовані оцінки можуть працювати краще, ніж (неупереджений) OLS-оцінювач, наприклад, в лінійній регресійній моделі.
Річард Харді

3
@Carl багато термінів використовуються по-різному в різних областях застосування. Якщо ви публікуєте групу статистики і використовуєте жаргонний термін на зразок "упередженість", природно вважається, що ви використовуєте для статистики конкретне значення (терміни) конкретного терміна. Якщо ви маєте на увазі що- небудь інше, важливо або використовувати інший термін, або чітко визначити, що ви маєте на увазі під терміном право під час першого використання.
Glen_b -Встановіть Моніку

2
"упередженість" - це, звичайно, термін жаргону - особливі слова чи вирази, які використовуються професією чи групою, які важко зрозуміти іншим, здається, що таке "упередженість". Це тому, що такі терміни мають точні, спеціалізовані визначення у своїх областях застосування (включаючи математичні визначення), що робить їх термінами жаргону.
Glen_b -Встановіть Моніку

Відповіді:


34

Для більш обмеженого питання

Чому зазвичай застосовується упереджена формула стандартного відхилення?

проста відповідь

Тому що пов'язаний оцінювач дисперсії є неупередженим. Реального математичного / статистичного обґрунтування немає.

може бути точним у багатьох випадках.

Однак це не обов'язково завжди. Є щонайменше два важливі аспекти цих питань, які слід розуміти.

По-перше, вибіркова дисперсія не є просто неупередженою для Гауссових випадкових величин. Він є неупередженим для будь-якого розподілу з кінцевою дисперсією σ 2 (як обговорено нижче, в моїй оригінальній відповіді). У запитанні зазначається, що s не є об'єктивним для σ , і пропонує альтернативу, яка не є об'єктивною для Гауссової випадкової величини. Однак важливо відзначити , що в відміну від дисперсії, для стандартного відхилення це НЕ можливо , щоб мати «вільну» розподілу несмещенной оцінки (* дивіться примітку нижче).s2σ2sσ

По-друге, як згадується в коментарі Юбер, той факт, що є упередженим, не впливає на стандартний "t-тест". Спершу зауважимо, що для гауссової змінної x , якщо оцінити z-бали зразка { x i } як z i = x i - μsx{xi} тоді вони будуть упередженими.

zi=xiμσxix¯s

Однак статистика т, як правило , використовується в контексті розподілу вибірки з . У цьому випадку z-оцінка буде z ˉ x = ˉ x - μx¯ хоча ми не можемо обчислити ніz,ніt, оскільки не знаємоμ. Тим не менш, якщоz ˉ x статистика буде нормальною, тоt-статистикабуде слідувати розподілу Стьюдента-t. Це не крупнопнаближення. Єдине припущення полягає в тому, щозразкиx -це Гайссіан.

zx¯=x¯μσx¯x¯μs/n=t
ztμzx¯tnx

(Зазвичай т-тест застосовується в більш широкому сенсі для можливого негаусових . Це дійсно покладатися на по більшій п , що в центральній граничній теоремі гарантує , що ˉ х по- , як і раніше буде гауссовским.)xnx¯


* Пояснення щодо "безпристрасного об'єктивного оцінювача"

Під "безкоштовним розподілом" я маю на увазі, що оцінювач не може залежати від будь-якої інформації про сукупність окрім вибірки { x 1 , ... , x n } . Під «незміщеної» Я маю в виду , що очікувана помилка Е [ θ п ] - θ рівномірно нуль, незалежно від розміру зразка н . (На відміну від оцінювача, який є просто асимптотично неупередженим, він називається " послідовним ", для якого зміщення зникає як n .)x{x1,,xn}E[θ^n]θnn

У коментарях це було подано як можливий приклад "безпристрасного об'єктивного оцінювача". Абстрагуючись трохи, ця оцінка має вигляд сг = F [ х , п , κ х ] , де κ х це перевищення ексцес х . Цей оцінювач не є "розподілом вільним", оскільки κ x залежить від розподілу x . Оцінки називається задовольняють Е [ сг ] - сг х = O [ 1σ^=f[s,n,κx]κxxκxx, деσ 2 x - дисперсіяx. Отже, оцінювач є послідовним, але не (абсолютно) "неупередженим", якO[1E[σ^]σx=O[1n]σx2xможе бути довільно великим для малогоn.O[1n]n


Примітка: Нижче моя оригінальна "відповідь". Відтепер коментарі стосуються стандартного "вибіркового" середнього значення та дисперсії, які є "неупередженими" неупередженими оцінками (тобто, населення не вважається гауссом).

Це не повна відповідь, а скоріше уточнення, чому зазвичай використовується формула дисперсії вибірки .

Дано випадковий зразок , якщо змінні мають загальне середнє значення, оцінювач ˉ x = 1{x1,,xn}буденеупередженим, тобто E[xi]=μx¯=1nixi

E[xi]=μE[x¯]=μ

Якщо змінні також мають загальну кінцеву дисперсію, і вони некорельовані , то оцінювач будетакожбути об'єктивними, тобто Е[хяхJ]-μ2={ σ 2 я = J 0 я Js2=1n1i(xix¯)2 Зауважимо, що неупередженість цих оцінок залежитьлишевід наведених вище припущень (ілінійностіочікувань; доказом є лише алгебра). Результатнезалежить від конкретного розподілу, наприклад, Гаусса. Змінні х я уНЕповинні мати загальний розподіл, і вони навіть не повинні бутинезалежними(тобто зразок не повинен бутин.о.р.).

E[xixj]μ2={σ2i=j0ijE[s2]=σ2
xi

«Стандартне відхилення вибірки» є НЕ несмещенной оцінкою, зсг , але тим не менше він часто використовується. Я здогадуюсь, що це просто тому, що це квадратний корінь неупередженої дисперсії вибірки. (Без більш складного обґрунтування.)ssσ

У разі н.о.р. гаусового зразка, то оцінки максимальної правдоподібності (MLE) параметрів є μ М Л Е = ˉ х і ( σ 2 ) M L E = п - 1μ^MLE=x¯, тобто дисперсія ділиться наn,а неn2. Більше того, у випадку iid Gaussian стандартне відхилення MLE - це лише квадратний корінь дисперсії MLE. Однак ці формули, як і ті, які натякнули на ваше запитання, залежать від припущення Гаусса про іїд.(σ^2)MLE=n1ns2nn2


Оновлення: додаткові роз'яснення щодо "упередженого" проти "неупередженого".

Розглянемо -елементний зразок, як зазначено вище, X = { x 1 , , x n } із сумарним відхиленням квадрату δ 2 n = i ( x i - ˉ x ) 2 З огляду на припущення, викладені у першій частині вище , ми обов'язково маємо E [ δ 2 n ] = ( n - 1 ) σ 2, тому оцінювач (Gaussian-) MLE є упередженим ^ σ 2nX={x1,,xn}

δn2=i(xix¯)2
E[δn2]=(n1)σ2
тоді як оцінювач "дисперсії вибірки" є неупередженим s 2 n =1
σn2^=1nδn2E[σn2^]=n1nσ2
sn2=1n1δn2E[sn2]=σ2

Тепер вірно, що стає менш упередженим у міру збільшення розміру вибірки n . Однак s 2 n має нульове зміщення незалежно від розміру вибірки (доки n > 1 ). Для обох оцінювачів дисперсія їх розподілу вибірки буде не нульовою і залежатиме від n .σn2^nsn2n>1n

Як приклад, наведений нижче код Matlab розглядає експеримент із зразками із стандартної нормальної сукупності z . Для оцінки розподілів вибірки для ˉ x , ^ σ 2 , s 2 експеримент повторюють N = 10 6 разів. (Ви можете вирізати і вставити код тут, щоб випробувати його самостійно.)n=2zx¯,σ2^,s2N=106

% n=sample size, N=number of samples
n=2; N=1e6;
% generate standard-normal random #'s
z=randn(n,N); % i.e. mu=0, sigma=1
% compute sample stats (Gaussian MLE)
zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n;
% compute ensemble stats (sampling-pdf means)
zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N
% compute unbiased variance
zvar_avg=zvar_mle_avg*n/(n-1)

Типовий вихід подібний

zbar_avg     =  1.4442e-04
zvar_mle_avg =  0.49988
zvar_avg     =  0.99977

підтверджуючи, що

E[z¯](z¯)¯μ=0E[s2](s2)¯σ2=1E[σ2^](σ2^)¯n1nσ2=12

Оновлення 2: Зауважте про принципово "алгебраїчний" характер об'єктивності.

У наведеній вище числовій демонстрації код наближає до справжнього очікування використанням середнього ансамблю з N = 10 6 повторень експерименту (тобто кожна є вибіркою розміру n = 2 ). Навіть при цій великій кількості типові результати, цитовані вище, далеко не точні.E[]N=106n=2

Для чисельного показує , що оцінки є дійсно об'єктивними, ми можемо використовувати простий трюк , щоб наблизити випадок: просто додайте наступний рядок в кодN

% optional: "whiten" data (ensure exact ensemble stats)
[U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';

(розміщення після "генерувати стандартні звичайні випадкові #" і "перед" обчислити зразок статистики ")

За допомогою цієї простої зміни навіть виконання коду з дає такі результатиN=10

zbar_avg     =  1.1102e-17
zvar_mle_avg =  0.50000
zvar_avg     =  1.00000

3
@amoeba Ну, я з'їм свою шапку. Я квадратував значення SD у кожному рядку, а потім їх усереднював, і вони виходять неупередженими (0,9994), тоді як самі значення SD не мають. Це означає, що ви і GeoMatt22 вірні, і я помиляюся.
Карл

2
@Carl: Загалом вірно, що перетворення об'єктивного оцінювача параметра не дає неупередженої оцінки перетвореного параметра, за винятком випадків, коли перетворення є афінним, виходячи з лінійності очікування. То в якому масштабі важлива неупередженість для вас?
Scortchi

4
Карл: Прошу вибачення, якщо ви вважаєте, що моя відповідь була ортогональною на ваше запитання. Він повинен був дати правдоподібне пояснення питання: "чому зазвичай використовується упереджена формула стандартного відхилення?" A: "просто тому, що пов'язаний оцінювач дисперсії є неупередженим, порівняно з будь-яким реальним математичним / статистичним обгрунтуванням". Що стосується Вашого коментаря, типово "неупереджений" описує оцінювач, очікуване значення якого є правильним незалежно від розміру вибірки. Якщо він є неупередженим лише в межах нескінченного розміру вибірки, зазвичай це буде називатися " послідовним ".
GeoMatt22

3
(+1) Nice answer. Small caveat: That Wikipedia passage on consistency quoted in this answer is a bit of a mess and the parenthetical statement made related to it is potentially misleading. "Consistency" and "asymptotic unbiasedness" are in some sense orthogonal properties of an estimator. For a little more on that point, see the comment thread to this answer.
cardinal

3
+1 but I think @Scortchi makes a really important point in his answer that is not mentioned in yours: namely, that even for Gaussian population, the unbiased estimate of σ has higher expected error than the standard biased estimate of σ (due to the high variance of the former). This is a strong argument in favour of not using an unbiased estimator even if one knows that the underlying distribution is Gaussian.
amoeba says Reinstate Monica

15

The sample standard deviation S=(XX¯)2n1 is complete and sufficient for σ so the set of unbiased estimators of σk given by

(n1)k22k2Γ(n12)Γ(n+k12)Sk=Skck

(See Why is sample standard deviation a biased estimator of σ?) are, by the Lehmann–Scheffé theorem, UMVUE. Consistent, though biased, estimators of σk can also be formed as

σ~jk=(Sjcj)kj

(the unbiased estimators being specified when j=k). The bias of each is given by

Eσ~jkσk=(ckcjkj1)σk

& its variance by

Varσ~jk=Eσ~j2k(Eσ~jk)2=c2kck2cj2kjσ2k

For the two estimators of σ you've considered, σ~11=Sc1 & σ~21=S, the lack of bias of σ~1 is more than offset by its larger variance when compared to σ~2:

Eσ~1σ=0Eσ~2σ=(c11)σVarσ~1=Eσ~12(Eσ~11)2=c2c12c12σ2=(1c121)σ2Varσ~2=Eσ~12(Eσ~2)2=c2c12c2σ2=(1c12)σ2
(Note that c2=1, as S2 is already an unbiased estimator of σ2.)

Plot showing contributions of bias & variance to MSE at sample sizes from one to 20 for the two estimators

The mean square error of akSk as an estimator of σ2 is given by

(EakSkσk)2+E(akSk)2(EakSk)2=[(akck1)2+ak2c2kak2ck2]σ2k=(ak2c2k2akck+1)σ2k

& therefore minimized when

ak=ckc2k

, allowing the definition of another set of estimators of potential interest:

σ^jk=(cjSjc2j)kj

Curiously, σ^11=c1S, so the same constant that divides S to remove bias multiplies S to reduce MSE. Anyway, these are the uniformly minimum variance location-invariant & scale-equivariant estimators of σk (you don't want your estimate to change at all if you measure in kelvins rather than degrees Celsius, & you want it to change by a factor of (95)k if you measure in Fahrenheit).

None of the above has any bearing on the construction of hypothesis tests or confidence intervals (see e.g. Why does this excerpt say that unbiased estimation of standard deviation usually isn't relevant?). And σ~jk & σ^jk exhaust neither estimators nor parameter scales of potential interest—consider the maximum-likelihood estimator n1nS, or the median-unbiased estimator n1χn12(0.5)S; or the geometric standard deviation of a lognormal distribution eσ. It may be worth showing a few more-or-less popular estimates made from a small sample (n=2) together with the upper & lower bounds, (n1)s2χn12(α) & (n1)s2χn12(1α), of the equal-tailed confidence interval having coverage 1α:

confidence distribution for $\sigma$ showing estimates

The span between the most divergent estimates is negligible in comparison with the width of any confidence interval having decent coverage. (The 95% C.I., for instance, is (0.45s,31.9s).) There's no sense in being finicky about the properties of a point estimator unless you're prepared to be fairly explicit about what you want you want to use it for—most explicitly you can define a custom loss function for a particular application. A reason you might prefer an exactly (or almost) unbiased estimator is that you're going to use it in subsequent calculations during which you don't want bias to accumulate: your illustration of averaging biased estimates of standard deviation is a simple example of such (a more complex example might be using them as a response in a linear regression). In principle an all-encompassing model should obviate the need for unbiased estimates as an intermediate step, but might be considerably more tricky to specify & fit.

† The value of σ that makes the observed data most probable has an appeal as an estimate independent of consideration of its sampling distribution.


7

Q2: Would someone please explain to me why we are using SD anyway as it is clearly biased and misleading?

This came up as an aside in comments, but I think it bears repeating because it's the crux of the answer:

The sample variance formula is unbiased, and variances are additive. So if you expect to do any (affine) transformations, this is a serious statistical reason why you should insist on a "nice" variance estimator over a "nice" SD estimator.

In an ideal world, they'd be equivalent. But that's not true in this universe. You have to choose one, so you might as well choose the one that lets you combine information down the road.

Comparing two sample means? The variance of their difference is sum of their variances.
Doing a linear contrast with several terms? Get its variance by taking a linear combination of their variances.
Looking at regression line fits? Get their variance using the variance-covariance matrix of your estimated beta coefficients.
Using F-tests, or t-tests, or t-based confidence intervals? The F-test calls for variances directly; and the t-test is exactly equivalent to the square root of an F-test.

In each of these common scenarios, if you start with unbiased variances, you'll remain unbiased all the way (unless your final step converts to SDs for reporting).
Meanwhile, if you'd started with unbiased SDs, neither your intermediate steps nor the final outcome would be unbiased anyway.


Variance is not a distance measurement, and standard deviation is. Yes, vector distances add by squares, but the primary measurement is distance. The question was what would you use corrected distance for, and not why should we ignore distance as if it did not exist.
Carl

Well, I guess I'm arguing that "the primary measurement is distance" isn't necessarily true. 1) Do you have a method to work with unbiased variances; combine them; take the final resulting variance; and rescale its sqrt to get an unbiased SD? Great, then do that. If not... 2) What are you going to do with a SD from a tiny sample? Report it on its own? Better to just plot the datapoints directly, not summarize their spread. And how will people interpret it, other than as an input to SEs and thus CIs? It's meaningful as an input to CIs, but then I'd prefer the t-based CI (with usual SD).
civilstat

I do no think that many clinical studies or commercial software programs with n<25 would use standard error of the mean calculated from small sample corrected standard deviation leading to a false impression of how small those errors are. I think even that one issue, even if that is the only one, should be ignored.
Carl

"so you might as well choose the one that lets you combine information down the road" and "the primary measurement is distance" isn't necessarily true. Farmer Jo's house is 640 acres down the road? One uses the appropriate measurement correctly for each and every situation, or one has a higher tolerance for false witness than I. My only question here is when to use what, and the answer to it is not "never."
Carl

1

This post is in outline form.

(1) Taking a square root is not an affine transformation (Credit @Scortchi.)

(2) var(s)=E(s2)E(s)2, thus E(s)=E(s2)var(s)var(s)

(3) var(s)=Σi=1n(xix¯)2n1, whereas E(s)=Γ(n12)Γ(n2)Σi=1n(xix¯)22Σi=1n(xix¯)2n1=var(s)

(4) Thus, we cannot substitute var(s) for E(s), for n small, as square root is not affine.

(5) var(s) and E(s) are unbiased (Credit @GeoMatt22 and @Macro, respectively).

(6) For non-normal distributions x¯ is sometimes (a) undefined (e.g., Cauchy, Pareto with small α) and (b) not UMVUE (e.g., Cauchy ( Student's-t with df=1), Pareto, Uniform, beta). Even more commonly, variance may be undefined, e.g. Student's-t with 1df2. Then one can state that var(s) is not UMVUE for the general case distribution. Thus, there is then no special onus to introducing an approximate small number correction for standard deviation, which likely has similar limitations to var(s), but is additionally less biased, σ^=1n1.514γ2i=1n(xix¯)2 ,

where γ2 is excess kurtosis. In a similar vein, when examining a normal squared distribution (a Chi-squared with df=1 transform), we might be tempted to take its square root and use the resulting normal distribution properties. That is, in general, the normal distribution can result from transformations of other distributions and it may be expedient to examine the properties of that normal distribution such that the limitation of small number correction to the normal case is not so severe a restriction as one might at first assume.

For the normal distribution case:

A1: By Lehmann-Scheffe theorem var(s) and E(s) are UMVUE (Credit @Scortchi).

A2: (Edited to adjust for comments below.) For n25, we should use E(s) for standard deviation, standard error, confidence intervals of the mean and of the distribution, and optionally for z-statistics. For t-testing we would not use the unbiased estimator as X¯μvar(n)/n itself is Student's-t distributed with n1 degrees of freedom (Credit @whuber and @GeoMatt22). For z-statistics, σ is usually approximated using n large for which E(s)var(n) is small, but for which E(s) appears to be more mathematically appropriate (Credit @whuber and @GeoMatt22).


2
A2 is incorrect: following that prescription would produce demonstrably invalid tests. As I commented to the question, perhaps too subtly: consult any theoretical account of a classical test, such as the t-test, to see why a bias correction is irrelevant.
whuber

2
There's a strong meta-argument showing why bias correction for statistical tests is a red herring: if it were incorrect not to include a bias-correction factor, then that factor would already be included in standard tables of the Student t distribution, F distribution, etc. To put it another way: if I'm wrong about this, then everybody has been wrong about statistical testing for the last century.
whuber

1
Am I the only one who's baffled by the notation here? Why use E(s) to stand for Γ(n12)Γ(n2)Σi=1n(xix¯)22, the unbiased estimate of standard deviation? What's s?
Scortchi - Reinstate Monica

2
@Scortchi the notation apparently came about as an attempt to inherit that used in the linked post. There s is the sample variance, and E(s) is the expected value of s for a Gaussian sample. In this question, "E(s)" was co-opted to be a new estimator derived from the original post (i.e. something like σ^s/α where αE[s]/σ). If we arrive at a satisfactory answer for this question, probably a cleanup of the question & answer notation would be warranted :)
GeoMatt22

2
The z-test assumes the denominator is an accurate estimate of σ. It's known to be an approximation that is only asymptotically correct. If you want to correct it, don't use the bias of the SD estimator--just use a t-test. That's what the t-test was invented for.
whuber

0

I want to add the Bayesian answer to this discussion. Just because your assumption is that the data is generated according to some normal with unknown mean and variance, that doesn't mean that you should summarize your data using a mean and a variance. This whole problem can be avoided if you draw the model, which will have a posterior predictive that is a three parameter noncentral scaled student's T distribution. The three parameters are the total of the samples, total of the squared samples, and the number of samples. (Or any bijective map of these.)

Incidentally, I like civilstat's answer because it highlights our desire to combine information. The three sufficient statistics above are even better than the two given in the question (or by civilstat's answer). Two sets of these statistics can easily be combined, and they give the best posterior predictive given the assumption of normality.


How then does one calculate an unbiased standard error of the mean from those three sufficient statistics?
Carl

@carl You can easily calculate it since you have the number of samples n, you can multiply the uncorrected sample variance by nn1. However, you really don't want to do that. That's tantamount to turning your three parameters into a best fit normal distribution to your limited data. It's a lot better to use your three parameters to fit the true posterior predictive: the noncentral scaled T distribution. All questions you might have (percentiles, etc.) are better answered by this T distribution. In fact, T tests are just common sense questions asked of this distribution.
Neil G

How can one then generate a true normal distribution RV from Monte Carlo simulations(s) and recover that true distribution using only Student's-t distribution parameters? Am I missing something here?
Carl

@Carl The sufficient statistics I described were the mean, second moment, and number of samples. Your MLE of the original normal are the mean and variance (which is equal to the second moment minus the squared mean). The number of samples is useful when you want to make predictions about future observations (for which you need the posterior predictive distribution).
Neil G

Though a Bayesian perspective is a welcome addition, I find this a little hard to follow: I'd have expected a discussion of constructing a point estimate from the posterior density of σ. It seems you're rather questioning the need for a point estimate: this is something well worth bringing up, but not uniquely Bayesian. (BTW you also need to explain the priors.)
Scortchi - Reinstate Monica
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.