Чому (/) статистичний вибірки повинен працювати для політики (наприклад, Gallup)?

Опитування там (скажімо, Gallup) вибирають деяку абсурдно низьку кількість людей порівняно з чисельністю населення (наприклад, тисяча людей із сотень мільйонів).

Тепер, для мене, вибірка популяції як засобу для оцінки статистики населення має сенс, коли у вас є вагомі підстави вважати, що вибірки є репрезентативними для населення (або, аналогічно, для інших вибірок ) .

Наприклад, відбір проб, очевидно, має сенс для медичних досліджень, оскільки ми апріорі знаємо, що у всіх людей є досить схожі геноми і що цей фактор змушує їх тіло поводитися аналогічно.
Зауважте, що це не якась пухка сполука - геном є досить проклятим сильним визначальним фактором .

Однак я просто не розумію, що виправдовує використання низьких розмірів вибірки для таких речей, як політичні опитування.

Я міг би купити, що, можливо, 80-90% людей у будь-якому населеному пункті голосують аналогічно за президента (через подібні соціально-економічні / освітні знання), але це навряд чи виправдовує абсурдно малу кількість вибірок. Буквально немає переконливої причини (принаймні для мене), чому 1000 випадкових виборців повинні поводитись так, як 200 мільйонів інших виборців.

Мені вам знадобиться принаймні як (скажімо) 100 × ця сума. Чому? Я можу придумати купу причин, наприклад:

Просто в Каліфорнії близько 22 000 дільниць . Люди виростають настільки різними у своїх економічних та освітніх програмах, що опитування розміром 1000 здається смішно малим. Як ви можете узагальнити цілі дільниці з <1 людиною в середньому?
Люди взагалі не можуть змінити реакцію своїх органів на медицину, але вони можуть змінити свою думку про політику, просто подумавши про це. Як я це бачу, у медицині немає жодного примусового фактора, подібного до ДНК, коли ти маєш справу з політикою. У кращому випадку я можу уявити, що мають бути невеликі кишені кореляції.

Але якось такі опитування, схоже, ... працюють у будь-якому випадку? Або принаймні люди, здається, думають, що так роблять?
Але чому вони повинні? Можливо, я просто принципово не розумію вибірки ? Може хтось пояснить?
Я просто не можу сприймати жодне з опитувань, які бачу серйозно, але відчуваю, що я в цьому більш-менш самотнім ...

sampling sample-size

— користувач541686
джерело

"Відбір проб, очевидно, має сенс для медичних досліджень, тому що ми апріорі знаємо, що у всіх людей є досить схожі геноми" Я не маю медичного досвіду, але чи справді наша ДНК відрізняється менше, ніж наші політичні погляди? Якщо так, то чому так важко вивчати генетику і чому ми вже не мали повного розуміння цього? Я б зробив ставку, що якщо ви візьмете двох випадкових людей, то вони з більшою ймовірністю матимуть однакові політичні погляди, то та сама ДНК.

— Тім

@Tim: "Я б став би на ставку, що якщо ви візьмете двох випадкових людей, то вони, швидше за все, матимуть однакові політичні погляди, то те саме ДНК". Скільки ви хочете зробити ставку? google.com/search?q=dna+s

— similarity+bet between+humans

Але хіба 0,5% різниця не є найважливішим, коли ви робите такі порівняння? Крім того, ми поділяємо 60% генів з мухами , тож я гадаю, що ми могли б взяти проби людей і мух на обмін для медичних досліджень? Порівняно: у 2008 році Обама отримав 53% голосів на виборах президента США. Більше того, я заперечую, що при дослідженні рятувального, але потенційно небезпечного наркотику, ви повинні бути більш обережними у відборі проб, ніж при дослідженні переваги використання мила, виготовленого компанією A vs B, або для опитування думок.

— Тім

@ user2338816: "Це переконливо, оскільки це було точно в історичному плані" - це менш схоже на математику і більше схоже на науку. Я цілком готовий купувати його на наукових підставах (тому що так прокатується наука), але не на суто математичних (доказових) підставах.

— користувач541686

Я б оскаржив (обережне) твердження, що опитування працюють на виборах. Я не пам’ятаю, щоб опитування навіть були близькі до реальних результатів виборів, звідки я родом. Просто занадто багато факторів, які ви насправді не можете пояснити - наприклад, при нашій ~ 60% відвідуваності ви майже так само ймовірні, щоб взяти вибірку на когось, хто не збирається голосувати, ніж на одного, хто цього не зробив. Участь в опитуванні - це менше зусиль, ніж голосування, і іноді вам навіть за це платять. Деякі партії мають набагато вищу відвідуваність, ніж інші (наприклад, комуністична партія). Вам потрібно навести відхилення, а також "результати" в будь-якій вибірці.

— Луань

Відповіді:

Схоже, ви уявляєте дуже просту модель вибірки.

Найпростіша модель вибірки називається влучно простою випадковою вибіркою . Ви вибираєте підгрупу населення (наприклад, випадковим чином набираючи телефонні номери) і запитуйте у когось відповіді, як вони голосують. Якщо 487 скажуть Клінтон, 463 - Трамп, а решта дадуть вам нерозумну відповідь, то дільниця для голосування повідомила б, що 49% виборців віддають перевагу Клінтону, тоді як 46% вважають за краще Трампа. Однак виборчі фірми роблять набагато більше, ніж це. Проста випадкова вибірка дає рівну вагу кожній точці даних. Однак, припустимо, ваш зразок містить - випадково - 600 чоловіків і 400 жінок, що явно не є репрезентативними для населення в цілому. Якщо чоловіки як група схиляються в одну сторону, а жінки схиляються до іншого, це призведе до зміщення вашого результату. Однак, оскільки у нас досить хороша демографічна статистика, ви можете зважувати *відповіді, підраховуючи відгуки жінок трохи більше, а чоловіків - трохи менше, так що зважена відповідь представляє населення краще. Організації опитування мають більш складні моделі зважування, завдяки яким нерепрезентативний зразок нагадує більш репрезентативний.

Ідея зважування вибіркових відповідей лежить на досить твердому статистичному ґрунті, але є деяка гнучкість у виборі, які фактори сприяють зважуванню. Більшість опитувальників набирають вагу на основі демографічних факторів, таких як стать, вік та раса. Враховуючи це, ви можете подумати, що ідентифікація партії (демократична, республіканська тощо) також повинна бути включена, але виявляється, що більшість дільницьких фірм не використовують її у ваговій вазі: партійна (само) ідентифікація пов'язана з вибором виборця таким чином, що робить його менш корисним.

Багато виборчих нарад також повідомляють про свої результати серед "ймовірних виборців". У них респонденти обираються або зважуються, виходячи з ймовірності того, що вони дійсно підуть на опитування. Ця модель, безсумнівно, також керується даними, але точний вибір факторів забезпечує певну гнучкість. Наприклад, включення взаємодії між перебігом кандидата та виборцями (або статтю виборців) було навіть розумним до 2008 чи 2016 року, але я підозрюю, що вони мають певну прогностичну силу зараз.

Теоретично ви можете включати всі види речей як вагові фактори: музичні уподобання, колір очей тощо. Однак демографічні фактори є популярним вибором вагомих факторів, оскільки:

Емпірично вони добре співвідносяться з поведінкою виборців. Очевидно, що не існує закодованого залізом закону, який "змушує" білих чоловіків бути худими республіканцями, але за останні п'ятдесят років вони прагнули цього.
- Значення чисельності населення добре відомі (наприклад, з перепису чи життєвих записів)

Однак опитувальники також бачать ті самі новини, що і всі інші, і при необхідності можуть коригувати змінні зважування.

Існують також деякі "фактори викривлення", які іноді викликають для пояснення результатів опитування. Наприклад, респонденти іноді неохоче дають "соціально-небажані" відповіді. У Bradley Effect стверджує , що білі виборці іноді применшувати свою підтримку білих кандидатів проти меншості , щоб уникнути появ расиста. Він названий на честь Тома Бредлі, афро-американського кандидата в губернатори, який вузько програв вибори, незважаючи на те, що він впевнено виборчий.

Нарешті, ви абсолютно правильні, що сам акт запитання чиєїсь думки може змінити її. Виборчі фірми намагаються писати свої запитання нейтрально. Щоб уникнути проблем із порядком можливих відповідей, імена кандидатів можуть бути вказані у випадковому порядку. Кілька версій запитання також іноді перевіряються одна проти одної. Цей ефект також може бути використаний для грізних цілей у поштовому опитуванні , де інтерв'юер насправді не зацікавлений у зборі відповідей, а у впливі на них. Наприклад, попитувальне опитування може запитати "Ви б проголосували за [кандидата A], навіть якщо б повідомлялося, що він був дитячим злочинцем?".

* Ви також можете встановити чіткі цілі для своєї вибірки, зокрема 500 чоловіків та 500 жінок. Це називається стратифікованою вибіркою - популяція стратифікується на різні групи, і кожна група потім відбирається вибірково. На практиці це робиться не дуже часто для опитувань, тому що вам потрібно буде розшаруватися на безліч вичерпних груп (наприклад, чоловіків, які навчаються в коледжі, в 18–24 р. В міському Техасі).

— Метт Краузе
джерело

Я безумовно розумію , що вони не роблять просту випадкову вибірку, але моє запитання про те , що вони будуть робити це тільки добре тільки тому , що це відбувається , що їх припущення вірні (тобто розумною , але суб'єктивна думка), або припущення , також статистично виправданий. Дивіться мій коментар до іншої відповіді тут .

— користувач541686

Обидва, я думаю. Зважування вибірки є статистично правильною справою, але є .... гнучкість у вирішенні питання про те, як вибрати, які чинники йдуть у вагу. Наприклад, раса, стать та освіта корисні, але виявляється, що ідентифікація партії часто не є (наприклад, theguardian.com/commentisfree/2012/sep/27/… ), ймовірно, тому, що вона пов'язана з кандидатом виборця вибір.

— Метт Крауз

Аналогічно, ваги іноді включають оцінку, наскільки ймовірний респондент проголосувати: молоді люди шумують, але не завжди з'являються; літні люди рідко відвідують мітинги, але надійно з'являються на виборчих дільницях. Це можна оцінити за історичними даними (іноді списки виборців є загальнодоступними), але я можу собі уявити, що деякі місця були адаптовані для афро-американців у 2008 році та для жінок у 2016 році.

— Метт Крауз

Спасибі! Може добре згадати, що "гнучкість" у вашій відповіді :) +1

— користувач541686

Існує математична теорема під назвою "закон великих чисел". Уявіть, що ви хочете визначити ймовірність того, що монета придумає голову. "Популяція" монетних оборотів - це нескінченність - набагато більша, ніж 300 000 000+ людей у Сполучених Штатах. Але згідно із Законом про великі числа, чим більше ви будете гортати монети, тим точнішою буде ваша оцінка.

Ідеальне опитування: У ідеальному опитуванні опитувальники випадковим чином вибиратимуть імена з перепису в США, вони дізнаються, де живуть ці люди, а потім пітимуть і постукують у двері. Якщо людина каже, що планує голосувати, опитувальник запитує, за кого вони голосують, і записує їх відповідь. Опитування подібним чином математично гарантовано працює, і кількість помилок у вашому вимірі для будь-якого заданого рівня довіри можна легко обчислити .

Ось що означає помилка: припустимо, що на основі опитування ви зрозуміли, що існує 52-відсотковий шанс, що кандидат Кандидат Макперфект збирається перемогти, з помилкою 3% із 98% впевненістю. Це означає, що ви можете бути на 98% впевнені, що справжня частка виборців, які підтримують кандидата Awesome McPerfect, становить від 49% до 55%.

Примітка про помилку та впевненість Для даного розміру вибірки, чим впевненіше ви, тим більшою буде ваша помилка. Подумайте над цим - ви на 100% впевнені, що справжня частка, яка підтримує кандидата Awesome, становить від 0% до 100% (можлива найбільш помилка), і ви 0% впевнені, що справжня частка, яка підтримує кандидати Awesome, становить саме 52.0932840985028390984308% (нульова помилка). Більше впевненість означає більше помилок, менша впевненість означає менше помилок. Однак зв’язок між довірою та помилкою НЕ лінійний! (Дивіться: https://en.wikipedia.org/wiki/Confidence_interval )

Опитування в реальному світі: Оскільки опитувальників вертольотів дорого в усіх куточках країни дорого, щоб стукати у двері випадкових людей (хоча мені б хотілося, щоб це сталося; якщо ви мільярдер, і ви це бачите, будь ласка розглянемо фінансування цього), опитування в реальному світі є складнішими. Давайте розглянемо одну з найпоширеніших стратегій - викликати випадкових виборців і запитувати їх, за кого вони будуть голосувати. Це гарна стратегія, але вона має деякі невідомі недоліки:

Люди часто вирішують не відповідати на телефон і відповідати на опитування (наприклад, я)
Деякі демографічні показники мають більше шансів надати стаціонарний стан (наприклад, старші виборці)
Деякі демографічні показники частіше реагують на опитування (наприклад, старші виборці)

Оскільки різні демографії голосують по-різному, опитувальники повинні зробити все можливе, щоб контролювати розбіжність у їхніх вихідних даних (виходячи з того, хто вирішив відповісти на телефон) та результати фактичних виборів. Наприклад, якщо 10% людей, які взяли телефон, були латиноамериканськими, але 30% виборців на останніх виборах були латиноамериканцями, то вони збираються в три рази більше надати латиноамериканським виборцям. Якщо 50% людей, які відповіли на телефон, були старшими за 60, але лише 30% людей, які проголосували на останніх виборах, були старшими за 60, вони збираються надати меншу вагу старшим виборцям, які відповіли. Це не ідеально, але це може призвести до вражаючих подвигів прогнозування (Нейт Сілвер правильно передбачив результати у кожному з 50 штатів на виборах 2012 року, використовуючи статистику,

Слова обережності для мудрих: Опитники роблять найкращі прогнози, які можуть зробити, ґрунтуючись на тому, як все працювало в минулому. Взагалі кажучи , все відбувається приблизно так само, як і раніше, або, принаймні, зміни є досить повільними, що недавнє минуле (на яке вони зосереджуються найбільше) буде нагадувати сучасне. Однак періодично відбуваються швидкі зрушення в електораті, і справи йдуть не так. Можливо, виборці Трампа дещо рідше, ніж ваш середній голосуючий, відповідатимуть на телефон, і зважування за демографічними показниками не сприймає цього. А може молодих людей (які переважно підтримують Хілларі) ще більшенавряд чи відповість на телефон, ніж прогнозують моделі, і ті, які відповідають на телефон, швидше за все будуть республіканськими. Або, можливо, навпаки обох - ми не знаємо. подібні речі - це приховані змінні, які не відображаються у загально зібраній демографії.

Ми б знали, якби ми надіслали опитувачів, щоб постукати у випадкові двері (ах, уявний мільярдер, читаючи це), оскільки тоді нам не довелося б зважувати речі на основі демографії, але до цього пальці схрещували.

— Дж. Антоніо Перес
джерело

Я ціную відповідь, але це трохи елементарно стосовно питання, яке я намагався задати, і мого досвіду (не впевнений, чи помітили ви, але я не зовсім знайомий з основами ймовірності / статистики); Я не думаю, що відповідь на моє запитання тут є такою ж базовою, як і ваша. Наприклад: припущення для класичного закону великих чисел є те , що ми маємо випадкові величини з однаковими розподілами ... але я не бачу підстави для цього в політичному контексті: чому повинна розподілом ви поклали на моєму голосі і твоїх буде те ж саме на всіх ?

— користувач541686

Крім того, я навіть не впевнений, що закон великої кількості виправдовує те, що ви намагалися обґрунтувати, навіть якщо його припущення виконуються. Питання полягає у розмірах вибірки, на які закон великих чисел насправді не відповідає (принаймні, не у запропонованій вами формі); нам потрібне певне поняття про дисперсію або швидкість конвергенції, а не просто збіжність середнього значення в нескінченності. Можливо, ви мали на меті посилатися на центральну граничну теорему, а не на закон великих чисел? (Хоча, будь ласка, дивіться мій попередній коментар, оскільки це, мабуть,

— суперечка

Розподіл не застосовується до окремих голосів. Окремі голоси не є випадковими. Вони застосовуються до поведінки населення в цілому. Це як намалювати кольорові кульки з урни - кожен куля заздалегідь визначений червоним або синім кольором, але ви можете мати ймовірність малювання кожного кольору, і таким чином ви можете побудувати розподіл для ймовірності малювання певного кольору кулі на основі зразка з кульок в урні

— Дж. Антоніо Перес

Давайте подивимось на щось інше, ніж на політику з людьми. Хтось улюблений смак морозива залежить від стільки ж речей, скільки їх політичних поглядів. Це може залежати від уподобань їх друзів, приємних спогадів про їхнє дитинство, добрих чи поганих вражень у салоні з морозивом. Можливо, їм подобається один аромат, тому що вони отримали його на першому побаченні зі своєю дружиною чи чоловіком. Можливо, їм не подобається аромат, тому що це нагадує їх колишню. Але якби я взяв випадкове опитування людей в Америці, ти не погодишся з тим, що я міг би судити про найулюбленіші смаки морозива в Америці?

— Дж. Антоніо Перес

"Випадкова змінна" - це те, яку людину обирає опитувальник, щоб запитати їх перевагу. Перевага особистості не є випадковим; яку особа, яку вибирає опитувач, є випадковою.

— Дж. Антоніо Перес

По-перше, це окрім ваших основних моментів, але варто згадати. У медичному випробуванні у вас може бути 1000 людей, які перевіряють препарат, який можна давати 10000 хворим щорічно. Ви можете подивитися на це і подумати "Це тестується на 10% населення", адже насправді чисельність населення не становить 10000 людей, а всі її майбутні пацієнти, тому чисельність населення нескінченна. 1000 людей не великі порівняно з нескінченними потенційними споживачами наркотиків, але такі дослідження працюють. Не важливо ви тестуєте 10%, 1% або 0,1% населення; що важливо, це абсолютний розмір вибірки, а не наскільки велика вона в порівнянні з сукупністю.

Далі, ваш головний пункт полягає в тому, що існує стільки заплутаних змінних, які можуть впливати на голосування людей. Ви ставитесь до 22000 районів Каліфорнії як до 22000 змінних, але насправді вони є лише кількома змінними (доходи та освіта, як ви згадали). Вам не потрібен репрезентативний зразок з кожного району, вам просто потрібно достатньо зразків, щоб покрити варіації через доходи, освіту, тощо.

Якщо у вас є змінні змінні (вік, стать, освіта та ін.), І всі вони мають аналогічні наслідки, то різниця голосів збільшується приблизно в разів. Якщо ви відібрали людей, то дисперсія середньої вибірки зменшиться на коефіцієнт . Отже, якщо відхилення від кожної змішуючої змінної дорівнює то середнє значення для вибірки з людей, які мають змінні змінні, буде . $k$ $k$ $n$ $n$ $\sigma^2$ $n$ $k$ $\frac{k\sigma^2}{n}$

Можливо, ви можете придумати 10 або більше заплутаних змінних, але розмір вибірки 1000, тому набагато менше . Тому дисперсія середньої вибірки досить мала. $k$ $n$

Редагувати:

Вищенаведена формула передбачала, що кожна змінна зміна є однаково важливою. Якщо ми хочемо врахувати сотні речей, які можуть додати розбіжності до результатів, то це припущення не вірно (наприклад, користувачі twitter можуть підтримувати ще одного кандидата, але ми знаємо, що використання twitter не так важливо, як стать).

Ми можемо перелічити всі змішуючі змінні за важливістю (наприклад, стать, вік, дохід, ..., використання twitter, ...). Припустимо, що кожна змінна лише на 90% важлива, ніж попередня. Тепер, якщо гендер додає дисперсію, рівну то вік додає дисперсію, рівну а дохід додає . Якщо ми включимо нескінченну кількість змішуючих змінних, то загальна мінливість дорівнює . $\sigma^2$ $0.9 \sigma^2$ $0.9^2 \sigma^2$ $\sum_{n=0}^{\infty} \sigma^2 0.9^n = 10 \sigma^2$

Зважаючи на такий тип врахування незначних змінних, у нас виникла дисперсія, що в 10 разів перевищує мінливість статі. Таким чином, для зразків варіація середньої вибірки становить . Звичайно було вибрано довільно, але це передає пункт про те, як ці нескінченна кількість незначних змінних повинна складати щось невелике $n$ $\frac{10\sigma^2}{n}$ $0.9$

— Х'ю
джерело

Дякую за відповідь! Щодо першого пункту, я думаю, це правда, але мій погляд на те, що навіть не має значення, який розмір людської сукупності, оскільки у вас є фактор форсування (ДНК тощо), який би зробив результати досить схожими на будь-який зразок. Щодо другого, хоча: я можу купити, що на практиці може бути кілька змінних, але єдиний спосіб обґрунтувати це припущення математично і використовувати його пізніше - це фактично спочатку відібрати велику кількість людей і продемонструвати це, правда? Без цього висновок вже не здається статистично суворим або виправданим.

— користувач541686

Ми експериментально встановили, що вік, стать, дохід та деякі інші є ключовими факторами голосування людей, і ми це також знаємо лише із загальних знань. Ви маєте рацію, що може бути сотні інших невеликих факторів, які впливають на голоси, і теоретично вони можуть додати щось важливе, але наші загальні знання говорять про те, що вони неважливі. На даний момент модель не є суворо виправданою, але хто збирається перевірити незначні фактори, такі як "Чи блондинка змушує людей голосувати за Клінтона? Чи носіння перуки змушує людей голосувати за Трампа?".

— Х'ю

"але хто збирається перевірити незначні фактори, такі як [...]" - але це питання тут. Якщо відповідь "тому що це найкраще, що ми можемо зробити практично / тому, що так просто трапляється на роботі / тому, що в іншому випадку це дорого / тощо", це прекрасна відповідь на запитання "Чому вони не опитують 100 000 людей? ", але насправді це не відповідь на" Як 1000 людей можуть бути статистично виправданими? ". Ось чому я запитую це на Stats.SE на відміну від Politics.SE ... Мені все одно, чи більше зразків непрактично; моє питання, чому люди вважають, що сучасні методи є статистично виправданими.

— користувач541686

Перша пара пропозицій в останньому коментарі здається розумною відповіддю, хоча, якщо ви говорите, що таке дослідження було зроблене у великих масштабах (~ сотні тисяч, якщо не мільйони людей), і що це фундамент наших припущень. Якщо так, я думаю, що їх слід додати до вашої відповіді, оскільки вони вирішують суть мого запитання (в ідеалі з деяким цитуванням, хоча я справді не можу бути занадто прискіпливим, враховуючи, що це трохи дотична, і це не політика. ).

— користувач541686

Ви праві, що тестування незначних факторів недоцільно, але математично доречно. Я відредагував свою відповідь, щоб дати міркування, чому нас не турбують сотні дрібних факторів, що впливають на результат. Я впевнений, що ви можете знайти дослідження, зроблені щодо впливу головного чинника.

— Х'ю