Яка різниця між N і N-1 при обчисленні дисперсії населення?


50

Я не зрозумів, чому існують, Nі N-1під час розрахунку дисперсії населення. Коли ми використовуємо Nі коли ми використовуємо N-1?

введіть тут опис зображення
Клацніть тут для більшої версії

Це говорить про те, що коли дуже велика кількість населення, різниці між N і N-1 немає, але це не говорить про те, чому існує N-1 на початку.

Редагувати: Будь ласка, не плутайте з nі n-1які використовуються при оцінці.

Edit2: Я не кажу про оцінку кількості населення.


5
Ви можете знайти там відповідь: stats.stackexchange.com/questions/16008 / ... . В основному, ви повинні використовувати N-1, коли ви оцінюєте дисперсію, і N, коли ви точно її обчислюєте .
окрам

@ocram, наскільки я знаю, коли ми оцінюємо дисперсію, ми використовуємо або n або n-1.
ilhan

Якщо ви хочете, щоб ваш оцінювач був неупередженим, тоді вам слід використовувати n-1. Зауважте, що коли n великий, це не питання.
ocram

2
Жодна з наведених нижче відповідей не пишеться з точки зору обмеження кількості населення. Слово кінцеве тут абсолютно важливе; ось про що йдеться у книзі Кіша (і хто б сказав "Книга помиляється", просто не знаю достатньо про обмежене обстеження чи вибірки населення). Фактор замість N просто робить обчислення краще і усуває необхідність тралення навколо чинників , як 1 - 1 / N . Повна відповідь на це питання повинна була б ввести висновок вибірки, коли індикатори вибірки є випадковими, а значення спостережуваних характеристик y - фіксованими. Невипадкові. Встановити в камінь. N1N11/Ny
Стаск

2
Це насправді не додає до інших відповідей. Те, що різні подільники дають різні відповіді, або навіть що різниця зменшується при N, не викликає сумнівів. Питання в тому, коли і навіщо використовувати будь-який дільник.
Нік Кокс

Відповіді:


26

- розмір сукупності і n - розмір вибірки. Питання задає питання, чому дисперсія сукупності є середньоквадратичним відхиленням від середнього, а не ( N - 1 ) / N = 1 - ( 1 / N ) кратного за нього. З цього питання, навіщо зупинятися на цьому? Чому б, наприклад, не помножити середнє відхилення в квадраті на 1 - 2 / N , або 1 - 17 / N , або exp ( - 1 / N ) ?Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

Насправді є вагома причина цього не робити. Будь-яка з цих цифр, яку я щойно згадав, послужила б чудово як спосіб кількісного визначення «типового поширення» серед населення. Однак без попереднього знання чисельності населення було б неможливо використати випадкову вибірку, щоб знайти неупереджений оцінювач такої цифри. Ми знаємо, що дисперсія вибірки , яка помножує середнє квадратичне відхилення від середнього значення вибірки на , є неупередженим оцінкою звичайної дисперсії сукупності при вибірці з заміною. (Немає проблем із внесенням цієї корекції, тому що ми знаємо n !) Відхилення вибірки було б упередженим(n1)/nnОцінювач будь-якої кратної дисперсії популяції, де цей кратний, наприклад , заздалегідь точно не відомий.11/N

Ця проблема деякої невідомої кількості зміщення пошириться на всі статистичні тести, які використовують дисперсію вибірки, включаючи t-тести та F-тести. Фактично, поділ на будь-яку іншу, ніж у формулі дисперсії популяції вимагатиме від нас зміни всіх статистичних таблиць t-статистики та F-статистики (та багатьох інших таблиць), але коригування залежатиме від чисельності населення. Нікому не хочеться робити таблиці для всіх можливих N ! Особливо, коли це не потрібно.NN

NN1Nнавіть не намагайтесь вчити різницю: вони просто надають єдину дисперсійну формулу (ділити на або n залежно від випадку).Nn


24

Замість того, щоб займатись математикою, я спробую сказати це простими словами. Якщо у вас є все населення, то його дисперсія ( дисперсія населення ) обчислюється зі знаменником N. Так само, якщо ви маєте лише вибірку і хочете обчислити дисперсію цього зразка , ви використовуєте знаменник N(n у цьому випадку). В обох випадках, зауважте, ви нічого не оцінюєте : середнє значення, яке ви вимірювали, - це справжня середня величина, а відмінність, яку ви обчислили з цього значення, - це справжня дисперсія.

Тепер у вас є лише вибірки і ви хочете зробити висновок про невідому середню і розбіжність у сукупності. Іншими словами, ви хочете оцінки . Ви берете середню вибірку для оцінки середньої сукупності (тому що ваш зразок є репрезентативним). Щоб отримати оцінку варіабельності популяції, ви повинні зробити вигляд, що це середнє значення середньої сукупності, і тому воно більше не залежить від вашої вибірки з моменту її обчислення. Щоб "показати", що тепер ви сприймаєте це як фіксований, ви резервуєте одне (будь-яке) спостереження зі свого зразка, щоб "підтримати" середнє значення: що б не трапилось зразка, одне зарезервоване спостереження завжди може привести середнє значення до значення, яке ви " Ви отримали і які вважають, що не чутливі до обставин вибірки. Одне застережене спостереження - "-1"N-1 при обчисленні дисперсійної оцінки.

Уявіть, що ви якось знаєте справжнє значення популяції, але хочете оцінити відхилення від вибірки. Тоді ви заміните це справжнє середнє значення у формулу для дисперсії та застосуєте знаменник N: тут не потрібно "-1", оскільки ви знаєте справжнє середнє значення, ви не оцінювали його з цього ж зразка.


Але моє запитання не має нічого спільного з оцінкою. Йдеться про обчислення дисперсії населення; з N і N-1. Я не говорю про n і n-1.
ilhan

1
@ilhan, у своїй відповіді я використовував Nі N, і n. N- це розмір сукупності, що знаходиться під рукою, чи то населення, чи вибірка. Щоб обчислити дисперсію населення , ви повинні мати у своєму розпорядженні населення. Якщо у вас є лише зразок, ви можете обчислити дисперсію цього зразка або відхилити оцінку відхилення сукупності . Немає іншого шляху.
ttnphns

Я маю повну інформацію про своє населення; всі значення знаються. Мене не цікавить оцінка.
ilhan

1
Якщо у вас є ваше населення, то використовувати N. N-1 було б нелогічно.
ttnphns

1
@ilhan - Не вдалося коментувати ваш коментар безпосередньо до публікації ttnphns, але ось пояснення того, що ви бачите в книзі, і як слід зробити це. Символ "S", коли використовується для вказівки на дисперсію, завжди відноситься до вибіркової дисперсії. Грецька літера сигма використовується для позначення дисперсії населення. Ось чому ви бачите, як у книзі згадується S = N * sigma / (N - 1)
Arvind

9

Як правило, коли у вас є лише частка сукупності, тобто вибірки, ви повинні розділити на n-1. Для цього є вагома причина: ми знаємо, що дисперсія вибірки, яка помножує середнє відхилення у квадраті від середньої вибірки на (n − 1) / n, є неупередженим оцінником дисперсії сукупності.

Ви можете знайти доказ того, що оцінка дисперсії вибірки є неупередженою тут: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Крім того, якби застосувати оцінювач дисперсії сукупності, тобто версію оцінювача дисперсії, яка ділиться на n, на вибірці замість сукупності, отримана оцінка буде упереджена.


Це, здається, дає відповідь на інше питання щодо оцінки дисперсії населення. Це виглядає круговим: хіба ця відповідь не передбачається на основі прийняття конкретної конвенції для визначення в першу чергу дисперсії населення?
whuber

7

У минулому був аргумент, що слід використовувати N для неінфекційної дисперсії, але я більше не рекомендував цього. Ви завжди повинні використовувати N-1. Із зменшенням розміру вибірки N-1 є досить хорошою корекцією того факту, що дисперсія вибірки зменшується (ви більше шанси на вибірку біля піку розподілу --- див. Рисунок). Якщо розмір вибірки дійсно великий, то це не має значення жодної значущої кількості.

Альтернативним поясненням є те, що населення - це теоретична конструкція, якої неможливо досягти. Тому завжди використовуйте N-1, оскільки все, що ви робите, ви, в кращому випадку, оцінюєте дисперсію населення.

Крім того, ви будете бачити N-1, щоб оцінити дисперсію з цього моменту. Ви, ймовірно, ніколи не зіткнетеся з цією проблемою ... за винятком тесту, коли ваш вчитель може попросити вас зробити відмінність між пересічним та неінфекційна міра дисперсії. У цьому випадку не використовуйте відповідь Ваубера чи мою, зверніться до відповіді ttnphns.

Фігура 1

Зауважте, на цьому малюнку дисперсія повинна бути близькою до 1. Подивіться, наскільки вона змінюється залежно від розміру вибірки, коли ви використовуєте N для оцінки дисперсії. (це "упередженість", про яку йдеться в іншому місці)


1
Скажіть, будь ласка, чому N "більше не рекомендується" з справжньою сукупністю? Населення - це не завжди теоретична конструкція. Іноді ваш зразок є добросовісним населенням для вас.
ttnphns

1
ilhan, N може бути використаний для вашої вибірки, або він може бути використаний для розміру сукупності, якщо така існує. У більшості випадків відмінність великого N від малого n залежить від теми. Наприклад, n може бути числом випадків у кожному стані експерименту, тоді як N може бути числом експерименту. Вони обидва зразка. Не існує глобального правила.
Іван

1
ttnphns, це залежить від того, що ви маєте на увазі під чисельністю населення. Я б заперечував, що якщо все ваше населення настільки мало, що N-1 має значення, тоді сумнівно, чи обчислення середнього квадратичного відхилення взагалі віддалено корисне. Показати всі значення, їх форму та діапазон. Крім того, весь старий аргумент про те, що ви насправді маєте N ступенів свободи, якщо ви не робите висновок, є сумнівним. Ви втратили один, коли обчислили середнє значення, яке вам потрібно було обчислити дисперсію.
Іван

1
@ Джон, якщо ви підраховуєте середнє значення серед населення, ви просто констатуєте факт про параметр, так що ви не витрачаєте жодних ступенів свободи. Якщо ви обчислите його на вибірці і хочете зробити висновок про кількість населення, то ви витратите його. Також я можу мати населення з N = 1. У знаменнику N-1 виявляється, що такого параметра, як дисперсія, для нього не існує . Це нісенітниця.
ttnphns

3
@ilhan Будь ласка, подумайте про оновлення свого питання (як ви це робили) та вкажіть на оновлену версію, а не залишайте такі неконструктивні коментарі. Все є дискусійним, особливо коли в самому питанні бракує певного контексту. Тут здається, що проблема стоїть у визначенні того, що насправді є населенням.
chl

4

Дисперсія сукупності - це сума відхилень у квадраті всіх значень у сукупності, поділена на кількість значень у сукупності. Однак, коли ми оцінюємо дисперсію сукупності від вибірки, ми стикаємося з проблемою, що відхилення значень вибірки від середнього показника в середньому трохи менше, ніж відхилення цих вибіркових значень від ( невідомо) означає справжнє населення. Це призводить до того, що дисперсія, розрахована з вибірки, є трохи меншою, ніж справжня дисперсія сукупності. Використання дільника n-1 замість n виправляє цю недооцінку.


@ Bunnenburg, Якщо ви отримали відповідь на своє запитання. Скажіть, будь ласка, мені зараз, що у вас є? Це також велика плутанина і для мене.
Білал Пара

щоб компенсувати цю трохи меншу дисперсію, яку ми отримуємо, чому не можна використовувати n-2, n-3 тощо? чому n-1 зокрема? чому б не константа ... ???
Сараванабалагі Рамачандран

@SaravanabalagiRamachandran Розбіжність змінюється залежно від розміру вибірки, і тому константа не слугуватиме. Виправлення за допомогою n-1 ближче працює краще, ніж інші, які ви згадуєте.
Майкл Лев
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.