Як ви визначаєте розмір вибірки при опитуванні великої кількості населення?


15

В даний час в Австралії проводяться вибори, і зрозуміло, що ЗМІ щодня повідомляють про нові результати політичного опитування. У 22 мільйонах країн, який відсоток населення потрібно взяти на вибірку, щоб отримати статистично достовірний результат?

Чи можливо, що використання занадто великої вибірки може вплинути на результати, або статистична обгрунтованість монотонно зростає з розміром вибірки?

Відповіді:


13

Розмір вибірки не сильно залежить від чисельності популяції, що для багатьох є протиінтуїтивним.

Більшість опитаних компаній у своїх пробах використовують 400 або 1000 осіб.

Для цього є причина:

Розмір вибірки 400 дає інтервал довіри +/- 5% 19 разів із 20 (95%)

Розмір вибірки 1000 надасть вам довірчий інтервал +/- 3% 19 разів із 20 (95%)

Коли ви все одно вимірюєте пропорцію, яка становить близько 50%.

Цей калькулятор непоганий:

http://www.raosoft.com/samplesize.html


6
Але зауважте, що все це базується на вибірці з однорідної сукупності. Якщо у вас є неоднорідна популяція (наприклад, різні пропорції для різних підгруп, відбір проб рідкісних частин популяцій), то ця дисперсія оцінюється не настільки достовірно. Оцінки, які ви насправді підраховуєте тут, (я думаю) для населення, яке представляє ваш зразок. Питання: чи це саме населення, яке вас насправді цікавить?
ймовірністьлогічний

9

Припустимо, ви хочете знати, який відсоток людей проголосував би за конкретного кандидата (скажімо, , зауважте, що за визначенням π становить від 0 до 100). Ви вибірково вибираєте N виборців, щоб дізнатися, як вони проголосували, і ваше опитування цих N виборців говорить про те, що відсоток становить p . Отже, ви хочете встановити інтервал довіри для справжнього відсотка.ππNNp

Якщо ви припускаєте, що зазвичай розподілений (припущення, яке може бути або не може бути виправдане залежно від того, наскільки великим є N ), то ваш довірчий інтервал для π буде мати такий вигляд: C I = [ p - k s d ( p ) , p + k s d ( p ) ], де k - константа, яка залежить від ступеня впевненості, яку ви хочете (тобто 95% або 99% тощо).pNπ

СЯ=[p-ксг(p),  p+ксг(p)]
к

З точки зору опитування, ви хочете, щоб ширина вашого довірчого інтервалу була "низькою". Зазвичай опитувальники працюють з похибкою, яка в основному становить половину ІС. Іншими словами, . MoE=ksd(p)

Ось як ми б пішли про обчислення : За визначенням, p = X i / N де, X i = 1, якщо виборець i голосує за кандидата, а 0 в іншому випадку.sd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
NN

k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%

2

Як грубе узагальнення, щоразу, коли ви вибираєте частину населення в популяції, ви отримаєте іншу відповідь, ніж якщо ви знову будете вибирати те саме число (але, можливо, різні люди).

Тож, якщо ви хочете дізнатися, скільки людей в Австралії> = 30 років, і якщо справжня частка (Бог нам сказав) точно сталася 0,4, і якщо ми запитуємо 100 людей, середня кількість, яку ми можемо очікувати скажімо, що вони> = 30 - 100 x 0,4 = 40, а стандартне відхилення цього числа становить +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 або 4,9% (Біноміальний розподіл).

Оскільки цей квадратний корінь знаходиться там, коли розмір вибірки збільшується в 100 разів, стандартне відхилення зменшується в 10 разів. Тож загалом, щоб зменшити невизначеність такого виміру в 10 разів, потрібно відібрати вибірку в 100 разів більше людей. Тож якщо ви запитаєте 100 x 100 = 10000 людей, стандартне відхилення збільшиться до 49 або, як відсоток, до 0,49%.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.