Інтуїтивне пояснення ділення на при обчисленні стандартного відхилення?


136

Мене сьогодні в класі запитали, чому ви ділите суму квадратної помилки на замість на при обчисленні стандартного відхилення.nn1n

Я сказав, що не збираюся відповідати на уроці (оскільки я не хотів вступати в неупереджені оцінки), але пізніше я задумався - чи є інтуїтивне пояснення цьому ?!


29
Я хотів би процитувати цей зінгер із книги " Числові рецепти :" ... якщо різниця між та коли небудь має значення для вас, то вам, мабуть, все одно нічого непоганого - наприклад, намагаєтесь обґрунтувати сумнівну гіпотезу з граничними даними ". n - 1nn1
JM не є статистиком

11
тут викладено справді елегантне, інтуїтивне пояснення (нижче доказів) en.wikipedia.org/wiki/… Основна ідея полягає в тому, що ваші спостереження, природно, будуть наближені до середньої вибірки, ніж серед населення.
WetlabStudent

12
@Tal, ось чому школи смокчуть. Ви запитуєте їх «чому це ?», А вони відповідають «просто запам’ятайте це».
Pacerier

1
Якщо ви шукаєте інтуїтивне пояснення, вам слід побачити причину для себе, фактично беручи зразки! Слідкуйте за цим, воно точно відповідає на ваше запитання. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (від верхньої відповіді :) "... стандартне відхилення, яке обчислюється за допомогою відхилень від вибірки, занижує бажане стандартне відхилення сукупності ..." Дивіться також: en.wikipedia.org/wiki/… Отже, якщо вам не здається, що ви обчислюєте щось дещо складне, просто використовуйте n-1, якщо це з вибірки.
Андрій

Відповіді:


99

Стандартне відхилення, обчислене дільником - це стандартне відхилення, обчислене від вибірки як оцінка стандартного відхилення сукупності, з якої було взято вибірку. Оскільки спостережувані значення в середньому падають ближче до середнього показника вибірки, ніж до середнього показника сукупності, стандартне відхилення, яке розраховується за допомогою відхилень від середньої вибірки, недооцінює бажане стандартне відхилення сукупності. Використання замість як дільник виправляє це, роблячи результат трохи більшим.n - 1 nn1n1n

Зауважимо, що корекція має більший пропорційний ефект, коли є малим, ніж коли воно великим, чого ми хочемо, тому що, коли n більше, середня вибірка, ймовірно, буде хорошим оцінювачем середньої сукупності.n

Коли зразок все населення ми використовуємо стандартне відхилення з як дільник , тому що вибіркове середнє є математичне очікування.n

(Я зазначу в думках, що нічого, що починається з "другого моменту, переглянутого навколо відомого, певного значення", не буде виконати запит запитувача про інтуїтивне пояснення.)


13
Не будемо плутати «інтуїтивне» з «нетехнічним».
whuber

32
@Michael, це не пояснює, чому ми використовуємо n−1замість n−2(або навіть n−3)?
Pacerier

1
@Pacerier Подивіться на відповідь Вюбера нижче, щоб отримати детальну інформацію про це. По суті, корекція - це n-1, а не n-2 тощо, тому що корекція n-1 дає результати, дуже близькі до того, що нам потрібно. Більш точні виправлення наведені тут: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
Michael Lew

1
Привіт @Michael, так чому відхилення, обчислені від середньої вибірки, мають тенденцію бути меншими, ніж середнє населення?
Аллен

1
"Оскільки спостережувані значення в середньому падають ближче до середньої вибірки, ніж до середнього значення сукупності, стандартне відхилення, яке обчислюється за допомогою відхилень від середньої вибірки, недооцінює бажане стандартне відхилення сукупності." Чому середня вибірка завжди недооцінюється? Що робити, якщо це завищує?
Бора М. Альпер

55

Спільним є те, що визначення дисперсії (розподілу) є другим моментом, переглянутим навколо відомого, визначеного середнього, тоді як в оцінці використовується оціночне середнє. Ця втрата ступеня свободи (з огляду на середнє значення, ви можете відновити набір даних із знанням лише значень даних) вимагає використання а не для "коригування" результату.n - 1 nn1n1n

Таке пояснення відповідає оціненим дисперсіям в аналізі ANOVA та дисперсійних компонентів. Це дійсно просто особливий випадок.

Необхідність внесення певних коригувань, що надуває дисперсію, може бути зрозуміла інтуїтивно зрозумілим аргументом, який не є лише ex post facto маханням рукою. (Я пам'ятаю, що Студент, можливо, висловив такий аргумент у своїй роботі 1908 року про t-тест.) Чому коригування дисперсії має бути саме коефіцієнтом важче виправдати, особливо якщо врахувати що скоригована SD не є об'єктивним оцінювачем. (Це просто квадратний корінь неупередженого оцінювача дисперсії. Будучи неупередженим зазвичай не переживає нелінійного перетворення.) Отже, насправді правильне налаштування SD для усунення його зміщення не є факторомn/(n1)n/(n1) зовсім!

Деякі вступні підручники навіть не заважають вводити скоригований sd: вони вчать одну формулу (ділити на ). Я вперше негативно відреагував на це, коли викладав таку книгу, але зростав, щоб оцінити мудрість: зосередившись на поняттях та програмах, автори позбавляють усіх несуттєвих математичних приємностей. Виявляється, нічого не боляче і ніхто не вводить в оману.n


1
Дякую, Вубер. Мені доводиться навчати студентів з корекцією n-1, тому розділення лише на n не є варіантом. Як було написано до мене, згадувати про зв’язок до другого моменту - це не варіант. Хоча згадати, як середнє значення вже було оцінено, тим самим ми залишаємо нам менше "даних" для SD - це важливо. Щодо зміщення sd - я згадав, що зіткнувся з цим - дякую за те, що їхав додому. Найкраще, Таль
Тал Галілі

3
@Tal Я писав вашою мовою, а не мовою ваших учнів, тому що я впевнений, що ви цілком здатні перекласти це на все, що ви знаєте, що до них дійде. Іншими словами, я інтерпретував "інтуїтивне" у вашому питанні, щоб означати для вас інтуїтивне .
whuber

1
Привіт Вюбер. Дякую за довіру :) Втрата ступеня свободи для оцінки очікуваної тривалості - це те, що я думав використати на уроці. Проблема полягає в тому, що саме поняття "ступеня свободи" - це те, що потребує знань / інтуїції. Але поєднання його з деякими іншими відповідями, наведеними в цій темі, буде корисним (для мене, і я сподіваюся, що в майбутньому інших). Найкраще, Таль
Тал Галілі

Для великих , як правило, немає великої різниці між діленням на або , тому було б прийнятним ввести некориговану формулу за умови, що вона мала застосовуватися до великих зразків, ні? n n - 1nnn1
PatrickT

1
@Patrick Ви можете читати занадто багато в мою відповідь, тому що це явно про причини: вони педагогічні і не мають нічого спільного з чи великий чи ні. n
whuber

50

За визначенням дисперсія обчислюється шляхом взяття суми квадратних різниць від середнього та ділення на величину. У нас є загальна формула

μNσ2=iN(Xiμ)2N де - середнє значення, а - розмір сукупності.μN

Відповідно до цього визначення, дисперсія вибірки (наприклад, зразок ) також повинна бути розрахована таким чином.t

¯ X nσt2=in(XiX¯)2n де - середнє значення, а - розмір цього невеликого зразка .X¯n

Однак під вибірковою дисперсією ми маємо на увазі оцінку дисперсії сукупності . Як ми можемо оцінити лише за допомогою значень з вибірки?σ 2 σ 2S2σ2σ2

Відповідно до формул, наведених вище, випадкова величина відхиляється від середньої вибірки з дисперсією . Середнє значення вибірки також відхиляється від з відхиленням оскільки середнє значення вибірки отримує різні значення від вибірки до вибірки, і це випадкова величина із середнім та дисперсією . (Можна легко довести.)¯ X σ 2 t ¯ X μ σ 2XX¯σt2X¯μ μσ2σ2nμσ2n

Тому, приблизно, повинен відхилятися від з дисперсією, яка включає дві дисперсії, тому складіть ці дві і отримайте . Розв’язуючи це, ми отримуємо . Заміна дає наш оцінювач для дисперсії населення:μ σ 2 = σ 2 t + σ 2Xμ σ2=σ 2 t ×nσ2=σt2+σ2n σ 2 tσ2=σt2×nn1σt2

S2=in(XiX¯)2n1 .

Можна також довести, що істинно.E[S2]=σ2


Я сподіваюся, що це не надто тривіально: чи факт того, що середня вибірка сходиться до ND ( , σμ ) оскільки n отримує довільно велику причину, чому середнє значення вибірки відхиляється від реальної середньої величини з дисперсієюσ2σn ? σ2n
RexYuan

6
Це є кращим поясненням, ніж інші, оскільки воно показує рівняння та похідні замість того, щоб просто йти яга-яга зі статистичними термінами.
Nav

1
@sevenkul ми можемо дещо, як це візуально бачити? коли ти кажеш, X має відхилятися від з тією чистою дисперсією, я втрачаю у візуалізації цьогоμ
Parthiban Rajendran

17

Це тотальна інтуїція, але найпростіша відповідь - це корекція, яка робить стандартне відхилення одноелементного зразка невизначеним, а не 0.


11
Чому б тоді не вживати або навіть1nn21 як виправлення? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimin (-;

4
ще більше "парсимонічний". :-)1n1
whuber

2
@mbq, Що стосується вашої відповіді ~ "це корекція, зроблена для того, щоб зробити стандартне відхилення одноелементного зразка невизначеним, а не 0", чи справді це причина, або це жартівлива відповідь? Ви знаєте, що такі, як ми, не знаємо.
Pacerier

4
Формально це є наслідком, ніж розумом, але, як я писав, я вважаю, що це запам’ятовує це добре.

14

Ви можете глибше зрозуміти термін використовуючи лише геометрію, не тільки чому це не n, а чому саме він приймає саме таку форму, але, можливо, спочатку вам потрібно буде скласти свою інтуїцію, щоб впоратися з n- мірною геометрією. Звідси, однак, це невеликий крок до глибшого розуміння ступенів свободи в лінійних моделях (тобто модель df & залишковий df). Я думаю, що мало сумнівів, що Фішер думав так. Ось книга, яка створює її поступово:n1nn

Saville DJ, Wood GR. Статистичні методи: геометричний підхід . 3-е видання. Нью-Йорк: Спрингер-Верлаг; 1991. 560 сторінок. 9780387975177

(Так, 560 сторінок. Я це сказав поступово.)


Дякую один стоп - я не думав, що відповідь з цього напрямку не знайдеться. Будь-який спосіб підбити інтуїцію, чи це, мабуть, неможливо? Ура, Тал
Тал Галілі

Я не міг цього зробити сам, але рецензент книг узагальнив підхід у параграфі в Амер. Стат. у 1993 році: jstor.org/stable/2684984 . Я не впевнений, що реально використовувати цей підхід зі своїми студентами, якщо ви не прийняли його протягом усього курсу.
onestop

Чи можете ви підсумувати трохи інтуїції, а не просто довідки про книгу?
оліверсм

12

Оцінювач дисперсії популяції є упередженим при застосуванні на вибірці сукупності. Для того, щоб відкоригувати цей ухил, потрібно розділити на n-1 замість n. Можна математично показати, що оцінювач дисперсії вибірки є неупередженим, коли ділимо на n-1 замість n. Тут наводиться офіційний доказ:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Спочатку я вважав, що саме математична правильність привела до формули. Однак, якщо хочеться додати інтуїції до формули, згадані пропозиції здаються розумними.

По-перше, спостереження вибірки в середньому ближче до середньої вибірки, ніж до середньої сукупності. Оцінювач дисперсії використовує середню вибірку і, як наслідок, недооцінює справжню дисперсію сукупності. Ділення на n-1 замість n виправляє цю зміщення.

Крім того, ділення на n-1 робить дисперсію одноелементного зразка не визначеною, а не нульовою.


12

Чому ділимо на а не n ? Тому що це звичайно і призводить до неупередженої оцінки дисперсії. Однак це призводить до упередженої (низької) оцінки стандартного відхилення, як видно, застосовуючи нерівність Дженсена до увігнутої функції, квадратного кореня.n1n

То що ж такого чудового в тому, щоб мати неупереджений оцінювач? Це не обов'язково мінімізувати середню квадратичну помилку. MLE для нормального розподілу - ділити на а не n - 1 . Навчіть своїх учнів думати, а не відригувати і бездумно застосовувати старовинні уявлення від століття тому.nn1


8
(+1) Чим більше я думаю про цю ситуацію (і я задумався над цим реальною думкою, в міру дослідження попередніх статей, таких як студентський біометричний вклад 1908 року, щоб спробувати відстежити, коли і чому зробив свою появу ), тим більше я вважаю, що "тому що це звичайно" є єдино можливою правильною відповіддю. Я незадоволений тим, що бачу сутіни і можу лише здогадуватися, що вони відповідають на останнє речення, яке легко можна сприймати як напад на ОП, хоча я сумніваюся, що це був ваш намір. n1
whuber

1
Моє останнє речення було дружньою порадою для всіх зацікавлених, на відміну від нападу на ОП.
Марк Л. Стоун

За великої користі це не має значення, при використанні в тестах або довірчих інтервалах доведеться коригувати інші частини процедури і в підсумку отримати той самий результат!
kjetil b halvorsen

8

Загальновідомо (або легко доведено), що квадратичний має екстремум при z = - βαz2+2βz+γz=βαnx1,x2,,xn

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

xinμσ2μ1ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Лише на цьому обміні стеками це колись вважалося б інтуїтивно зрозумілою.
Джозеф Гарвін

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Перейти від визначення дисперсії довільної змінної до визначення дисперсії вибірки - це питання оцінки очікування середнім рівнем, що може бути виправдано філософським принципом типовості: Зразок є типовим поданням розподілу. (Зауважте, це пов'язано з, але не те саме, що оцінювання за моментами.)


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Незрозуміло, чому "нескінченна дисперсія була б результатом душі", ніж нульова дисперсія. Дійсно, ви, здається, використовуєте "вибіркову дисперсію" в сенсі оцінки дисперсії , що ще більш заплутано.
whuber

1
0<

4

За пропозицією юбера , ця відповідь була скопійована з іншого подібного питання .

Поправка Бесселя прийнята для виправлення упередженості використання вибіркової дисперсії як оцінювача справжньої дисперсії. Зміщення в некоректованій статистиці виникає тому, що середнє значення вибірки ближче до середини спостережень, ніж справжнє середнє, і тому відхилення у квадраті навколо вибірки систематично недооцінюють квадратичні відхилення навколо справжнього середнього.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Беручи очікувані результати:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


Дякую за доказ!
оновлення

0

Зазвичай використання "n" в знаменнику дає менші значення, ніж дисперсія популяції, яку ми хочемо оцінити. Особливо це відбувається, якщо брати невеликі зразки. Мовою статистики ми говоримо, що вибіркова дисперсія дає «необ’єктивну» оцінку дисперсії популяції і її потрібно робити «неупередженою».

Якщо ви шукаєте інтуїтивне пояснення, ви повинні дозволити своїм учням бачити причину для себе, фактично беручи зразки! Слідкуйте за цим, воно точно відповідає на ваше запитання.

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Щоб відповісти на це питання, ми повинні повернутися до визначення об'єктивного оцінювача. Незаангажований оцінювач - це той, чиє очікування схильне до справжнього очікування. Середнє значення вибірки - це об'єктивний оцінювач. Щоб зрозуміти, чому:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Давайте подивимось на очікування дисперсії вибірки,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

Узагальнений розподіл T студентів має три параметри та використовує всі три ваші статистичні дані. Якщо ви вирішили викинути якусь інформацію, ви можете додатково наблизити свої дані, використовуючи двопараметричний звичайний розподіл, як описано у вашому запитанні.

З точки зору Байєса, ви можете уявити, що невизначеність у гіперпараметрах моделі (розподіли по середньому та дисперсії) призводять до того, що дисперсія заднього передбачення є більшою, ніж дисперсія популяції.


-4

Боже, все ускладнюється! Я подумав, що відповідь проста: якщо у вас є всі точки даних, ви можете використовувати "n", але якщо у вас є "зразок", припускаючи, що це випадкова вибірка, у вас є більше вибіркових балів зсередини стандартного відхилення ніж зовні (визначення стандартного відхилення). Вам просто не вистачає даних на вулиці, щоб гарантувати отримання всіх точок даних, які вам потрібні випадковим чином. N-1 допомагає розширитись до "реального" стандартного відхилення.


3
n1n2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.