Чому політичні опитування мають такі великі вибіркові розміри?


32

Коли я дивлюсь новини, я помітив, що опитування Галлапа за такими речами, як президентські вибори мають [я припускаю випадкові] розміри вибірки, що перевищує 1000. З того, що я пам’ятаю зі статистики коледжу, було те, що розмір вибірки 30 був «значно великим» зразком. Здавалося, що розмір вибірки понад 30 є безглуздим через зменшення віддачі.


9
Нарешті, хтось тут, щоб поговорити про новий одяг імператора Big Data. Кому потрібні користувачі Твіттера 600M, якщо ви можете отримати всі відповіді з розміру вибірки зі статистики коледжу
30,

1
Стаск, це весело.
Аарон Холл

Найкращий коментар @StasK
Brennan

Відповіді:


36

Уейн досить добре вирішив питання "30" (моє власне правило: згадка про число 30 стосовно статистики, ймовірно, помиляється).

Чому цифри в районі 1000 часто використовуються

Число близько 1000-2000 часто використовується в опитуваннях, навіть у випадку простої пропорції (" Ви прихильні що><> ?").

Це робиться для того, щоб отримати досить точні оцінки пропорції.

Якщо припустити біноміальну вибірку, стандартна похибка * пропорції вибірки є найбільшою, коли пропорція - але ця верхня межа все ще є досить хорошим наближенням для пропорцій між 25% і 75%.12

* "стандартна помилка" = "стандартне відхилення розподілу"

Загальна мета полягає в оцінці відсотків протягом приблизно від справжнього відсотка, приблизно часу. Ці називають " похибкою ".95 % 3 %±3%95%3%

У тому "найгіршому випадку" стандартна помилка під час вибірки бінома, це призводить до:

1.96×12(112)/n0.03

0.98×1/n0.03

n0.98/0.03

n1067.11

... або "трохи більше 1000".

Отже, якщо ви опитуєте 1000 осіб навмання серед населення, про яке хочете зробити висновки, і 58% вибірки підтримують цю пропозицію, ви можете бути впевнені, що частка населення становить від 55% до 61%.

(Іноді можуть бути використані інші значення похибки, такі як 2,5%. Якщо вдвічі зменшити похибку, розмір вибірки збільшується на кратне 4.)

У складних опитуваннях, де потрібна точна оцінка частки в деякій підгрупі (наприклад, частка випускників чорних коледжів з Техасу на користь пропозиції), кількість може бути достатньо великою, що розмір цієї підгрупи має кілька сотень, можливо що охоплює десятки тисяч відповідей загалом.

Оскільки це може швидко стати непрактичним, прийнято розділяти населення на субпопуляції (прошарки) та вибирати кожну окремо. Тим не менш, ви можете закінчити кілька дуже великих опитувань.

Здавалося, що розмір вибірки понад 30 є безглуздим через зменшення віддачі.

Це залежить від розміру ефекту та відносної мінливості. Ефект на дисперсію означає, що вам можуть знадобитися досить великі зразки в деяких ситуаціях.n

Я відповів на запитання тут (я думаю, це було від інженера), який мав справу з дуже великими розмірами вибірки (близько мільйона, якщо я добре пам’ятаю), але він шукав дуже малі ефекти.

Давайте подивимося, яка випадкова вибірка з розміром вибірки 30 залишає нас при оцінці частки вибірки.

Уявіть, ми запитуємо 30 людей, чи схвалили вони адресу держави Союзу (повністю згодні, згодні, не згодні, категорично не згодні). Далі уявіть, що інтерес полягає в пропорції, яка або погоджується або сильно погоджується.

Скажіть, 11 опитаних погодилися і 5 - погодилися, загалом 16.

16/30 - це близько 53%. Які наші межі для частки в сукупності (скажімо, 95% інтервал)?

Ми можемо зафіксувати частку населення приблизно до 35% до 71% (приблизно), якщо наші припущення мають місце.

Не все, що корисно.


+1. Вся відповідь чудова, але перший рядок був вартий самовизначення.
Метт Крауз

1
І тоді, звичайно, ви можете змінити обчислення і обчислити похибку за зразком 30 ...
Calimo

Ваш останній абзац - це те, куди потрапляє стратифікована вибірка. Як зазначають інші, простий вибірковий вибірки з числа виборців, які мають право вибору, насправді не робиться в національному масштабі.
Уейн

@Wayne дякую; Я повернувся назад і трохи додав наприкінці.
Glen_b -Встановити Моніку

2
+1, і мені також подобаються парадоксальні наслідки вашого правила.
Джеймс Стенлі

10

Це особливе правило свідчить про те, що 30 пунктів достатньо, щоб припустити, що дані зазвичай розподіляються (тобто виглядають як крива дзвіночка), але це, в кращому випадку, орієнтовна орієнтир. Якщо це має значення, перевірте свої дані! Це говорить про те, що вам потрібно хоча б 30 респондентів для опитування, якщо ваш аналіз залежить від цих припущень, але є й інші фактори.

Одним з основних факторів є "розмір ефекту". Більшість рас є досить близькими, тому для надійного виявлення цих відмінностей потрібні досить великі зразки. (Якщо ви зацікавлені у визначенні "правильного" розміру вибірки, слід вивчити аналіз потужності ). Якщо у вас є випадкова величина Бернуллі (щось з двома результатами), що становить приблизно 50:50, то для отримання стандартної помилки до 1,5% вам потрібно близько 1000 випробувань. Це, мабуть, досить точно, щоб передбачити результат перегонів (останні 4 вибори Президента США мали середній запас в 3,2%), що добре відповідає вашим спостереженням.

Дані опитування часто нарізані і нарізані різними способами: "Чи веде кандидат із чоловіками, які володіють зброєю, старше 75 років?" чи що завгодно. Для цього потрібні ще більші зразки, оскільки кожен респондент вписується лише в декілька цих категорій.

Опитування президента іноді "в комплекті" з іншими питаннями опитування (наприклад, перегони Конгресу). Оскільки вони різняться від штату до штату, у кінцевому підсумку є деякі "додаткові" дані опитування.


Розподіли Бернуллі - це дискретні розподіли ймовірності з лише двома результатами: варіант 1 вибирається з ймовірністю , тоді як варіант 2 вибирається з ймовірністю .p1p

Різниця розподілу Бернуллі дорівнює , тому стандартна похибка середнього значення . Підключіть (вибори є рівним), встановіть стандартну помилку на 1,5% (0,015) і вирішіть. Вам потрібно буде отримати 1111 предметів, щоб отримати 1,5% SEp(1p)p(1p)np=0.5


4
+1, однак, "30 балів достатньо, щоб припустити, що дані зазвичай розподіляються" не відповідає дійсності. Можливо, люди вірять у це, але скільки даних потрібно для CLT, щоб розподіл вибірки адекватно збігався до нормального, залежить від характеру розподілу даних (див. Тут ). Натомість 30 (може бути) приблизно достатньо, якщо дані вже є нормальними, але SD оцінюється з того самого набору даних (cf, t-розподіл).
gung - Відновити Моніку

@ Гунг, цілком погодився, але я не хотів занадто далеко виходити з рейок. Не соромтеся більше редагувати, якщо ви думаєте, що пункт слід робити ще сильніше.
Метт Крауз

8

На це питання вже є відмінні відповіді, але я хочу відповісти, чому стандартна помилка - це те, що вона є, чому ми використовуємо як найгірший випадок і як стандартна помилка змінюється на .p=0.5n

Припустимо, ми беремо опитування лише одного виборця, давайте назвемо його або її виборця 1 і запитаємо "чи будете ви голосувати за фіолетову партію?" Відповідь ми можемо кодувати як 1 для "так" і 0 для "ні". Скажімо, що ймовірність «так» дорівнює . Тепер ми маємо бінарну випадкову змінну яка дорівнює 1, а ймовірність і 0 з ймовірністю . Ми говоримо, що - змінна Бернуї з вірогідністю успіху , яку ми можемо записати . Очікуваний, або середній,pX1p1pX1pX1Bernouilli(p)X1E(X1)=xP(X1=x)xX1. Але є лише два результати: 0 з ймовірністю і 1 з ймовірністю , тому сума просто . Зупиніться і подумайте. Це насправді виглядає цілком розумно - якщо є 30% шансів виборця 1 підтримати фіолетову партію, і ми зашифрували змінну до 1, якщо вони кажуть "так" і 0, якщо вони скажуть "ні", то ми б очікуємо, що середній показник складе 0,3 в середньому.1ppE(X1)=0(1p)+1(p)=pX1

Давайте подумаємо, що трапиться, квадратний . Якщо то а якщо то . Тож насправді в будь-якому випадку. Оскільки вони однакові, то вони повинні мати однакове очікуване значення, тому . Це дає мені простий спосіб обчислення дисперсії змінної Бернуї: Я використовую і тому стандартне відхилення - .X1X1=0X12=0X1=1X12=1X12=X1E(X12)=pVar(X1)=E(X12)E(X1)2=pp2=p(1p)σX1=p(1p)

Очевидно, я хочу поговорити з іншими виборцями - давайте назвати їх виборцем 2, виборцем 3, до виборця . Припустимо, що всі вони мають однакову ймовірність підтримки фіолетової партії. Тепер у нас є змінних Bernouilli, , до , з кожним для від 1 до . Усі вони мають однакове середнє значення, та дисперсію, .npnX1X2XnXiBernoulli(p)inpp(1p)

Я хотів би знайти, скільки людей у ​​моїй вибірці сказали "так", і для цього я можу просто скласти всі . Я напишу . Я можу обчислити середнє або очікуване значення за допомогою правила, що якщо ці очікування існують, і розширюється що до . Але я додаю цих очікувань, і кожен з них , тому я отримую в цілому щоXiX=i=1nXiXE(X+Y)=E(X)+E(Y)E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)npE(X)=np. Зупиніться і подумайте. Якщо я опитую 200 людей, і кожен з них має 30% шансів сказати, що підтримує фіолетову партію, я, звичайно, очікую, що 0,3 х 200 = 60 людей скажуть «так». Тож формула виглядає правильно. Менш "очевидним" є те, як поводитися з дисперсією.np

Там є правило , яке говорить , але я можу використовувати його тільки якщо мої випадкові величини незалежні один від одного . Так добре, давайте зробимо це припущення, і за аналогічною логікою до того, як я можу побачити, що . Якщо змінна - сума незалежних випробувань Бернуллі з однаковою ймовірністю успіху , то ми говоримо, що має біноміальне розподіл, . Ми щойно показали, що середнє значення такого розподілу біномів - а дисперсія - .

Var(X1+X2++Xn)=Var(X1)+Var(X2)++Var(Xn)
Var(X)=np(1p)Xp X X B i n o m i a l ( n , p ) n p n p ( 1 - p )n pXXBinomial(n,p)npnp(1p)

Наша первісна проблема полягала в тому, як оцінити із вибірки. Розумний спосіб визначити наш оцінювач - . Наприклад, 64 з нашої вибірки з 200 людей сказали "так", ми вважаємо, що 64/200 = 0,32 = 32% людей кажуть, що підтримують фіолетову партію. Ви можете бачити , що є «зменшеною» версією нашого загального числа так-виборців, . Це означає, що вона все ще є випадковою змінною, але більше не слідує за біноміальним розподілом. Ми можемо знайти його середнє значення та дисперсію, оскільки коли ми масштабуємо випадкову величину постійним коефіцієнтом то вона підкоряється таким правилам: (значить, середня шкала тим самим коефіцієнтом ) іpp^=X/np^XkE(kX)=kE(X)kVar(kX)=k2Var(X) . Зауважте, як масштаб дисперсії на . Це має сенс, коли ви знаєте, що загалом дисперсія вимірюється в квадраті будь-яких одиниць, за якими вимірюється змінна: тут не так застосовна, але якби наша випадкова величина мала висоту в см, то дисперсія була б у які масштабуються по-різному - якщо ви подвоюєте довжину, ви вчетверо збільшуєте площу.k2cm2

Тут наш коефіцієнт масштабу . Це дає нам . Це чудово! В середньому наш оцінювач - це саме те, що "повинно бути", істинна (або чисельність населення) ймовірність того, що випадковий виборець говорить, що вони будуть голосувати за фіолетову партію. Ми говоримо, що наш оцінювач є неупередженим . Але хоча вона в середньому правильна, іноді вона буде занадто маленькою, а іноді занадто високою. Ми можемо бачити, наскільки це неправильно, дивлячись на його відмінність. . Стандартне відхилення - квадратний корінь,1nE(p^)=1nE(X)=npn=pp^Var(p^)=1n2Var(X)=np(1p)n2=p(1p)np(1p)nі тому, що це дає нам зрозуміти, наскільки погано буде відзначений наш оцінювач (це фактично середньоквадратична помилка , спосіб обчислення середньої помилки, яка розглядає позитивні та негативні помилки як однаково погані, шляхом відсікання їх перед усередненням) , зазвичай його називають стандартною помилкою . Хорошим правилом, яке добре працює для великих зразків і з яким можна більш жорстко впоратися з відомою теоремою про центральний ліміт , є те, що більшу частину часу (приблизно 95%) оцінка буде помилкова менш ніж двома стандартними помилками.

Оскільки вона з’являється в знаменнику дробу, більш високі значення - більших зразків - зменшують стандартну помилку. Це чудова новина, так як якщо я хочу невелику стандартну помилку, я просто роблю розмір вибірки досить великим. Погана новина полягає в тому, що знаходиться всередині квадратного кореня, тому якщо я вчетверо збільшить розмір вибірки, я лише вдвічі зменшить стандартну помилку. Дуже малі стандартні помилки включатимуть дуже великі, отже, дорогі зразки. Є ще одна проблема: якщо я хочу націлити певну стандартну помилку, скажімо, 1%, то мені потрібно знати, яке значення використовувати в моєму обчисленні. Я можу використовувати історичні значення, якщо у мене є дані про опитування, але я хотів би підготуватися до найгіршого можливого випадку. Яке значенняnnppє найбільш проблематичним? Графік є повчальним.

графік sqrt (p (1-p))

Найгірша (найвища) стандартна помилка виникне, коли . Щоб довести, що я міг би використати обчислення, але якась алгебра середньої школи зробить трюк, доки я знаю, як « завершити квадрат ». p=0.5

p(1p)=pp2=14(p2p+14)=14(p12)2

Вираз у дужках має квадрат, тому завжди буде повертати нульову чи позитивну відповідь, яка потім відбирається від чверті. У гіршому випадку (велика стандартна помилка) забирається якомога менше. Я знаю, що найменше, що можна відняти, це нуль, і це станеться, коли , тож коли . Підсумком цього є те, що я отримую більші стандартні помилки, намагаючись оцінити підтримку, наприклад, політичних партій, що наближаються до 50% голосів голосів, і нижчі стандартні помилки для оцінки підтримки пропозицій, які значно більше або значно менш популярні, ніж вони. Насправді симетрія мого графіка та рівняння показують мені, що я отримаю однакову стандартну помилку для моїх оцінок підтримки Фіолетової партії, незалежно від того, чи мали вони 30% популярну підтримку чи 70%.p12=0p=12

То скільки людей мені потрібно опитувати, щоб стандартна помилка була нижче 1%? Це означало б, що в переважній більшості випадків моя оцінка буде в межах 2% від правильної пропорції. Тепер я знаю, що найгірша стандартна помилка - що дає мені і так . Це пояснило б, чому ви бачите цифри голосування в тисячах.0.25n=0.5n<0.01n>50n>2500

Насправді низька стандартна помилка не є гарантією хорошої оцінки. Багато проблем опитування мають практичний, а не теоретичний характер. Наприклад, я припускав, що вибірки були випадковими виборцями, кожен з однаковою ймовірністю , але взяти "випадкову" вибірку в реальному житті загрожує труднощами. Ви можете спробувати телефонне чи інтернет-опитування - але не тільки не кожен отримав телефон або доступ до Інтернету, але і ті, хто не має дуже різних демографічних показників (і намірів голосування) для тих, хто це робить. Щоб уникнути упередженості своїх результатів, опитувальні фірми фактично роблять усілякі складні зважування своїх зразків, а не просте середнєpXinщо я взяв. Також люди брешуть на опитування! Різні способи компенсації такої можливості опитувальникам є, очевидно, суперечливими. Ви можете побачити різноманітні підходи в тому, як опитувальні фірми мали справу з так званим фактором "Сором'язливих торі" у Великобританії. Один з методів виправлення передбачав перегляд того, як люди голосували в минулому, щоб оцінити, наскільки правдоподібним є їхній заявлений намір голосування, але виявляється, що навіть коли вони не брешуть, багато виборців просто не пам'ятають свою виборчу історію . Коли у вас це відбувається, то, відверто кажучи, дуже мало сенсу зменшити "стандартну помилку" до 0,00001%.

На закінчення, ось кілька графіків, які показують, як на необхідний розмір вибірки - згідно з моїм спрощеним аналізом - впливає бажана стандартна помилка, і наскільки погано значення «найгіршого випадку» порівняно з більш придатними пропорціями. Пам'ятайте, що крива була б ідентичною кривій для через симетрію попереднього графіка p=0.5p=0.7p=0.3p(1p)

Графік необхідних розмірів вибірки для різних бажаних стандартних помилок


Тут може допомогти шкала log10 на осі y.
EngrStudent

7

Правило "щонайменше 30" розглядається в іншій публікації на перехресному підтвердженні. Це як правило, в кращому випадку.

Якщо ви думаєте про зразок, який повинен представляти мільйони людей, вам доведеться мати набагато більшу вибірку, ніж всього 30. Інтуїтивно, 30 людей навіть не можуть включати одну людину з кожного штату! Тоді подумайте, що ви хочете представляти республіканців, демократів та незалежних (принаймні), і для кожної з них ви хочете представити пару різних вікових категорій, а для кожної з них пару різних категорій доходу.

Лише 30 людей зателефонували, ви пропустите величезну кількість демографічних даних, які потрібно взяти для вибірки.

EDIT2: [Я видалив абзац, на який абауман і StasK заперечували. Я все ще не переконаний на 100%, але особливо з аргументом Стаска, з яким я не можу погодитися.] Якщо 30 людей справді відібрані повністю випадковим чином серед усіх виборців, які мають право вибору, вибірка була б дійсною в певному сенсі, але занадто малою для дозвольте вам розрізнити, чи справді відповідь на ваше запитання була правдивою чи хибною (серед усіх виборців, які мають право) Стаск пояснює, як це було б погано в третьому коментарі нижче.

EDIT: У відповідь на коментар sampleize999 існує формальний метод визначення достатньої величини, який називається " аналіз потужності ", який також описаний тут . Коментар abaumann ілюструє, як відбувається компроміс між вашою здатністю розрізняти різниці та кількістю даних, необхідних для вдосконалення певної кількості. Як він ілюструє, в розрахунку є квадратний корінь, який означає, що вигода (у плані збільшення потужності) росте все повільніше і повільніше, або вартість (з точки зору того, скільки ще потрібно зразків) зростає все швидше, тому ви хочете достатньо зразків, але не більше.


2
"Вся суть вибірки - вся її обґрунтованість - полягає в тому, що вона відображає сукупність, а не те, що вона є випадковою". Це явно неправильно! Валідність (у сенсі узагальнення) випливає саме з випадкового характеру процедури вибірки. Справа полягає в тому, що, оскільки ви зацікавлені в дуже маленьких маржах, вам потрібна точна оцінка, що вимагає великого розміру вибірки.
абауман

3
@abaumann: Наскільки я розумію речі, немає ніякої магії в рандомізації: це просто найбільш об'єктивний спосіб, який ми маємо для створення зразків, що відображають населення. Ось чому ми можемо використовувати рандомізацію всередині верств або використовувати стратифікацію та зважування, щоб спробувати компенсувати не дуже велику рандомізацію.
Уейн

2
sampleize: Це мало або нічого спільного з тим, щоб бути "експертом". Наприклад, кандидати в президенти США проводять щотижневі та щоденні "стеження за опитуваннями" під час своїх кампаній, і лише серед опитувань близько 200-300 людей. Ці розміри вибірки забезпечують адекватний баланс витрат та інформації. В іншому випадку, деякі дослідження, пов'язані зі здоров’ям, такі як NHANES, беруть участь у десятки чи сотні тисяч людей, оскільки це потрібно для отримання дійсної інформації такої високої цінності, що величезні витрати на ці дослідження стануть варті. В обох випадках експерти визначають розміри вибірки.
whuber

2
Технічно узагальнення буде справедливим, якщо зразок є репрезентативним для сукупності. Ідея полягає в тому, що наявність випадкової вибірки гарантує, що вибірка буде репрезентативною, але цього важче (не обов'язково неможливо) досягти, якщо вибірка не є випадковою. FWIW, жодне опитування не використовує просту випадкову вибірку.
gung - Відновіть Моніку

1
@sashkello, є середина: можна використовувати стратифіковану випадкову вибірку (по суті, ваш варіант №1) або спробувати змінити вагу / порівняти зразок після цього. Як і Гунг, я думаю, що більшість великих опитувань роблять щось складніше, ніж просту випадкову вибірку
Метт Крауз

0

Дуже багато чудових відповідей уже опубліковано. Дозвольте запропонувати інше обрамлення, яке дасть ту саму відповідь, але могло б ще більше стимулювати інтуїцію.

Так само, як @Glen_b, припустимо, що ми вимагаємо принаймні 95% впевненості, що справжня частка, яка погоджується з твердженням, лежить в межах 3% -ної помилки. У конкретній вибірці населення справжня частка невідома. Однак невизначеність навколо цього параметра успіху можна охарактеризувати бета-розподілом .pp

Ми не маємо жодної попередньої інформації про те, як розподіляється , тому ми скажемо, що як неінформований попередник. Це рівномірний розподіл від 0 до 1.ppBeta(α=1,β=1)p

Коли ми отримуємо інформацію від респондентів опитування, ми отримуємо оновлення своїх переконань щодо розподілу . Задній розподіл коли ми отримуємо відповіді "так" і "ні" відповіді - це .ppδyδnpBeta(α=1+δy,β=1+δn)

Припускаючи найгірший сценарій, коли справжня частка дорівнює 0,5, ми хочемо знайти кількість респондентів таким чином, що лише 0,025 маси ймовірностей нижче 0,47, а 0,025 маси ймовірності вище 0,53 (для врахування для 95% впевненості в нашій 3% похибки). А саме, мовою програмування, такою як R, ми хочемо з'ясувати такий, що дає значення 0,47.n=δy+δnnqbeta(0.025, n/2, n/2)

Якщо ви використовуєте , ви отримуєте:n=1067

> qbeta(0.025, 1067/2, 1067/2) [1] 0.470019

який наш бажаний результат.

Підсумовуючи це, 1067 респондентів, які рівномірно розділили відповіді "так" і "ні", дали б нам 95% впевненості, що справжня частка респондентів "так" становить від 47% до 53%.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.