Розрахунок необхідного розміру вибірки, точність оцінки дисперсії?


18

Фон

У мене є змінна з невідомим розподілом.

У мене є 500 зразків, але я хотів би продемонструвати точність, з якою я можу обчислити дисперсію, наприклад, стверджувати, що розмір вибірки 500 достатній. Мені також цікаво знати мінімальний розмір вибірки, який би знадобився для оцінки дисперсії з точністю .X%

Запитання

Як я можу розрахувати

  1. точність моєї оцінки дисперсії, заданої розміром вибірки ? з ?n=500n=N
  2. Як можна обчислити мінімальну кількість зразків, необхідну для оцінки дисперсії з точністю ?X

Приклад

Рисунок 1 Оцінка щільності параметра на основі 500 зразків.

введіть тут опис зображення

Рисунок 2 Ось графік розміру вибірки на осі x порівняно з оцінками дисперсії на осі y, який я обчислював, використовуючи підпроби з вибірки 500. .

Однак оцінки не є дійсними незалежними, оскільки вибірки, які використовуються для оцінки дисперсії для , не залежать один від одного або від зразків, що використовуються для обчислення дисперсії приn [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

введіть тут опис зображення


Просто майте на увазі, що якщо складовою вашого невідомого розподілу є розподіл Коші, дисперсія не визначена.
Майк Андерсон

@Mike Або дійсно нескінченна кількість інших дистрибутивів.
Glen_b -Встановіть Моніку

Відповіді:


11

Для iid випадкових величин , неупереджений оцінювач для дисперсії s 2 (той, що має знаменник n - 1 ) має дисперсію:X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

де - надлишок куртозу розподілу (довідка: Вікіпедія ). Тож тепер вам також потрібно оцінити куртоз вашого розповсюдження. Ви можете використовувати кількість, яку іноді описують як γ 2 (також з Вікіпедії ):κγ2

γ2=μ4σ43

Я б припустив, що якщо ви використовуєте як оцінку для σ і γ 2 як оцінку для κ , ви отримаєте розумну оцінку для V a r ( s 2 ) , хоча я не бачу гарантії, що вона є неупередженою. Подивіться, чи відповідає вона різницею між підмножинами ваших 500 точок даних, і якщо це вже не хвилюється про це :)sσγ2κVar(s2)


чи є у вас посилання на підручник для неупередженого оцінювача дисперсії? Я не знаю, куди подітись з Вікіпедії для більшого контексту.
Абе

Тут у мене немає мого стандартного тексту « Райс» , тому я не можу перевірити номер сторінки для вас, але я впевнений, що він там є. Вікіпедія передбачає, що його слід згадати також у: Монтгомері, штат Колумбія та Рунджер, GC: Прикладна статистика та ймовірність для інженерів , стор. 201. John Wiley & Sons Нью-Йорк, 1994.
Ерік П.

дякую за допомогу в цьому. Ця відповідь була дуже корисною, і вона була інформативною для кількісної оцінки невизначеності дисперсії - я застосував рівняння приблизно 10 разів за останній день. Обчислити легко з бібліотекою: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

чи є шанс виявити номер сторінки з тексту рису? Я не можу знайти його в Каселлі та Бергері. Першочергове посилання було б навіть краще, якщо ви це знаєте. Сторінка вікіпедії помітно не посилається.
Абе

Гммм ... схоже, Райс теж не має формули. Я буду стежити за цим, але на даний момент у мене взагалі немає довідки.
Ерік П.

16

Вивчити дисперсію важко.

Для оцінки дисперсії в багатьох випадках потрібно (можливо, дивно) велика кількість зразків. Нижче я покажу розробки для "канонічного" випадку звичайного зразка iid.

Нехай , i = 1 , , n є незалежними N ( μ , σ 2 ) випадковими змінними. Шукаємо 100 ( 1 - α ) % довірчого інтервалу для дисперсії таким чином, що ширина інтервалу дорівнює ρ s 2 , тобто ширина становить 100 ρ % бальної оцінки. Наприклад, якщо ρ = 1 / 2 , то ширина CI дорівнює половині значення оцінки точки, наприклад, якщоYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , тоді CI був би на кшталт ( 8 ,s2=10 , що має ширину 5. Зверніть увагу і на асиметрію навколо точкової оцінки. ( s 2 - неупереджений оцінювач для дисперсії.)(8,13)s2

Довірчий інтервал "(", швидше, "а") для дорівнює ( n - 1 ) s 2s2 де χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
-βквантил розподілу chi-квадрата зn-1градусом свободи. (Це випливає з того, що(n-1)s2/σ2- основна величина в гауссовій обстановці.)χ(n1)2ββn1(n1)s2/σ2

Ми хочемо мінімізувати ширину, щоб тому нам залишається вирішити для n таке, що ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

У випадку 99% довірчого інтервалу отримаємо при ρ = 1 і n = 5321 при ρ = 0,1 . Цей останній випадок дає інтервал, який ( все-таки! ) На 10% більший, ніж бальна оцінка дисперсії.n=65ρ=1n=5321ρ=0.1

Якщо обраний рівень довіри менше 99%, то для нижчого значення буде отриманий той самий інтервал ширини . Але, п може по- , як і раніше може бути більше , ніж ви б здогадалися.nn

Діаграма розміру вибірки проти пропорційної ширини ρ показує щось, що виглядає асимптотично лінійним за шкалою журналу журналу; Іншими словами, відносини, подібні до влади. Ми можемо оцінити силу цього правовідносини (грубо) якnρ

α^log0.1log1log5321log65=log10log5231650.525,

що, на жаль, рішуче повільно!


Це свого роду "канонічний" випадок, щоб дати вам уявлення про те, як рухатись до розрахунку. На основі ваших сюжетів ваші дані не виглядають особливо нормально; зокрема, є те, що здається помітним косою.

Але це повинно дати вам бальне уявлення про те, що чекати. Зауважте, що для того, щоб відповісти на ваше друге вище запитання, потрібно спочатку зафіксувати деякий рівень довіри, який я встановив на рівні 99% у вищезгаданій розробці для демонстраційних цілей.


це дуже приємна відповідь на моє запитання. Однак, хоча я слідую за розрахунком, який ви робите для , мені не зовсім зрозуміло, чи одиниці для r h o - відсоток у розчині n = 65 для ρ < 1 ; це означає " ρ менше , ніж 1 × сек 2 " або " ρ менше , ніж 1 % від S 2 ?n|ρrhon=65ρ<1ρ1×s2ρ1%s2
Ейб

@Abe, оновлено та, сподіваємось, з’ясовано в процесі. У попередній версії був один особливо поганий друк. Вибач за це.
кардинал

дуже приємна відповідь, але я вибрав відповідну від @Erik, оскільки вона більше стосується моєї проблеми (оскільки мій параметр зазвичай не розподіляється).
Абе

@Abe: Не проблема. Саме для цього потрібна галочка. Моя відповідь була (мається на увазі) бути наочною, більше ніж усе. З того, що я можу сказати, що це все ще , здається, тільки один , що адреси і ваші питання, і буде (асимптотично) виправити навіть в сценарії , що Ерік обрисами. (+1 йому більше року тому.) :)
кардинал

Ви правильні, і я радий, що зараз я переглянув вашу відповідь. Я в кінцевому підсумку використовував загальний обчислення від @Erik, але тепер я бачу значення в загальному рішенні. Крім того , представляючи CI , а не SD буде вирішити питання з моєї аудиторією плутаючись при вигляді статистики у вигляді , не розуміючи , що дисперсія дисперсії є. Отже, s [ l c l , u c l ] повинні зробити це більш зрозумілим і узгоджуватись з іншими статистичними підсумками. І корисно буде проявити асиметрію. s(ss)s[lcl,ucl]
Абе

1

Я б зосередив увагу на SD, а не на дисперсії, оскільки це на шкалі, яку легше інтерпретувати.

Люди іноді дивляться на довірчі інтервали для SD або відхилень, але, як правило, акцент робиться на засобах.

s2/σ2σ2σσ2


(This reply came here after a duplicate question, framed somewhat differently, was merged.)
whuber

1

The following solution was given by Greenwood and Sandomire in a 1950 JASA paper.

Let X1,,Xn be a random sample from a N(μ,σ2) distribution. You will make inferences about σ using as (biased) estimator the sample standard deviation

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.