Як на виборах можна сказати, наскільки впевнені, що кандидат буде переможцем?


14

Вчора я прожив загальні вибори, де телевізійна мережа почала називати переможців задовго до відкриття всіх бюлетенів.

Вони виявилися правильно на всіх рахунках, і я не дуже здивований, що вони це зробили. Я знаю, що статистика абсолютно життєздатна. Все-таки мені цікаво. Припустимо:

  • ми відкрили з j бюлетенів;ij
  • ми маємо кандидатів яких струм бали з 1 , з 2 , з 3 , . . . c n ;nc1,c2,c3,...cн

Як можна обчислити визначеність, з якою провідний кандидат є переможцем?


1
Майте на увазі, що вони, як правило, мають доступ до обширних даних опитування виходу та інших даних, які вони можуть використовувати для прогнозування результату. Їм потрібно лише достатнє підтвердження від кількості вхідних, щоб переконатися, що вони не відмічені через помилку вибірки. Звичайно, є складності, і кількість вхідних підрахунків, як правило, є необ'єктивною вибіркою, але опитування щодо виїзних опитувань проходять довгий шлях до того, щоб допомогти їм вирішити деякі з цих проблем.
gung - Відновіть Моніку

1
Якщо "з упевненістю" мається на увазі сприйняття буквально, статистика може (майже?) Ніколи не відповісти на питання "з певністю". Але ми можемо дати відповіді з високим рівнем впевненості, що відповідь буде правильною. (Іншими словами, якщо ми отримаємо наші дані і зробимо свої аналізи правильно, ми можемо сказати такі речі, як "Моя відповідь буде помилковою приблизно x% часу.")
Еміль Фрідман

Відповіді:


14

Основна складність на практиці полягає не в статистичній невизначеності того, що пурпурна удача дала б одному кандидату більше голосів. Основна складність, на порядок і більше, полягає в тому, що відкриті бюлетені майже ніколи не є об'єктивним зразком поданих голосів. Якщо проігнорувати цей ефект, ви отримаєте знамениту помилку "Поразка Дьюї Трумена", яка сталася з великим упередженим зразком.

На практиці виборці, які віддають перевагу одному кандидату проти іншого, не розподіляються однаково за регіонами, чи вони працюють протягом дня, чи за те, щоб вони були розміщені за кордон, тому голосували б заочні бюлетені. Це не маленькі відмінності.

Я думаю, що зараз роблять новинні організації - це розбити населення на групи та використовувати результати, щоб оцінити, як кожна група голосувала (включаючи явку). Вони можуть базуватися на моделях та попередніх припущеннях, заснованих на попередніх виборах, а не лише на даних цих виборів. Вони можуть не враховувати дивні випадки, такі як бюлетені-метелики з Палм-Біч.


3
В Австралії до приблизно 10-15 років тому консервативні партії зазвичай починали сильно на ранній підрахунку, коли прогресивні партії запізнювались. Телевізійні мережі, напевно, знали, що відбувається, але мінливість, ймовірно, спричинила ще більше драматизму. Все змінилося, коли на ім'я аналітика Ентоні Грін почали використовувати кабіни за кабінкою, щоб пояснити той факт, що невеликі кабінки в сільській місцевості мають тенденцію до підрахунку результатів і результатів достроково, і вони прагнуть голосувати більш консервативно. Антоній чудово називав результати виборів за години раніше, ніж хтось використовував це.
Богдановіст

1
За результатами попередніх років стенд за кабінкою можна використовувати для точного калібрування оцінок загального результату.
Пітер Елліс

@DouglasZare Я думаю, ви маєте на увазі, що бюлетені, відкриті в даний час, не є випадковою вибіркою.
Майкл Р. Черник

1
@Michael Chernick: Яка різниця між випадковою вибіркою та упередженою вибіркою? en.wikipedia.org/wiki/Sampling_bias, здається, використовує їх як синоніми.
Дуглас Заре

1
@DouglasZare З вашого посилання я бачу, що у вікіпедії використовується необ’єктивний зразок як синонім для невипадкових. Я думаю, що це поганий вибір. Загальне зміщення означає, що очікувач оцінки не буде рівним справжньому значенню параметра. У контексті вибірки невипадкова вибірка не передбачає зміщення конкретної оцінки. Це може призвести або не призвести до упередженості.
Майкл Р. Черник

0

Для вибіркового опитування необхідна стандартна помилка оцінки пропорції. Це більше залежить від i, ніж j. Також вимагає, щоб я відкриті бюлетені були обрані випадковим чином. Якщо p - справжня кінцева пропорція для кандидата A, то дисперсія оцінки є

(1ij)p(1p)i

(1ij)називається кінцевим коефіцієнтом корекції популяції. Для оцінки цієї дисперсії звичайну оцінку р замінено на р у формулі. Стандартна помилка отримується, приймаючи квадратний корінь. При прогнозуванні переможця опитувальник може використовувати оцінку плюс або мінус 3 стандартних помилок. Якщо в інтервалі 0,5 не міститься, то кандидат А оголошується переможцем, якщо 0,5 нижче нижньої межі, або його опонент оголошується переможцем, якщо 0,5 вище верхньої межі. Звичайно, це говорить з дуже високою впевненістю, хто буде переможцем у випадку, якщо 0,5 буде поза інтервалом. Рівень довіри становить 0,99, якщо ви використовуєте три стандартні помилки (виходячи з нормального наближення до двочленного). Якщо 0,5 знаходиться всередині інтервалу, ніхто не оголошується переможцем, і опитувач очікує накопичення більшої кількості даних.

Проводячи проекцію, опитувачі можуть вибрати стратифіковану випадкову вибірку з набраних голосів, щоб уникнути потенційного упередження, яке може виникнути, якщо дивитися на всі підрахунки бюлетенів. Проблема з переглядом усіх накопичених голосів полягає в тому, що певні дільниці закінчують підрахунок інших, і вони можуть не бути репрезентативними для населення.

Стаття тут добре висвітлено проблему та численні посилання.

Було зазначено, що накопичені голоси можуть давати необ’єктивні оцінки пропорцій, оскільки або дільниці, які ще мають повідомити, це дільниці, які, як правило, надають перевагу партії кандидату, який затримується, або заочним бюлетеням, ймовірно, буде прихильне той кандидат, який відстає і голоси підраховуються останніми. Витончені опитувачі, як Гарріс і Галлап, не потрапляють у такі пастки. Простий аналіз побудови інтервалів довіри на основі накопичених голосів, які я окреслив, є лише одним фактором, який використовується. Ці опитувачі мають у своєму розпорядженні набагато більше інформації. У них є опитування, проведені незадовго до виборів, і вони мають схеми голосування всіх дільничних та заочних голосів, прийнятих на виборах за останні минулі роки.

Тож якщо є чіткі упередження, які можуть змінити близькі вибори у зворотному напрямку, опитувальники визнають це і відкладуть прогнозування переможця.

У США заочні бюлетені надходять переважно з-за кордону військових та студентів коледжів, які знаходяться в школі далеко від дому. Хоча військові можуть бути більш консервативними і, ймовірно, будуть голосувати республіканцями, студенти-колежани, як правило, є більш ліберальними і швидше за все голосують демократичними. Усі ці міркування враховуються.

Турбота та витонченість сучасного опитування є причиною того, що з тих пір не траплялися грубі помилки, такі як опитування «Літературного дайджесту» 1936 р. Або передчасна поступка газети «Чикаго» виборів 1948 року в Дьюї.


2
Хоча неявна аналогія з вибіркою опитування є влучною, чи це питання не додає складних факторів? По-перше, це можливість більш ніж двох кандидатів. По-друге, це проблема послідовного рішення: на відміну від опитувальника, який, як правило, визначає розмір опитування та приймає одне рішення на основі вибірки, в кожний момент мережа має зростаючу вибірку і повинна вирішити, чи слід призначити вибори чи чекати більше інформації. Заявки на опитування, які ви цитуєте тут, не здаються застосовними до цієї динамічної ситуації. І чому б мережа використовувала 3 SE? (Його репутація під загрозою.)
whuber

1
@whuber Я згоден, що є ускладнення, які, ймовірно, не враховуються на практиці. Я вибрав для простоти два випадки кандидата, коли більшість - це виграш. Я думаю, що це та ситуація, яку мала на увазі ОП. Перемога в множині з трьома і більше кандидатами означатиме, що "кандидат-переможець мав більшу частку, ніж його опоненти. Безумовно, якщо ви будете робити опитування більше одного разу, слід враховувати послідовний характер вибірки. Я не впевнений, що це
Майкл Р. Черник

1
Мій вибір 3 SE був тому, що я думаю, що опитувальники хочуть бути "дуже впевненими", що вони праві, перш ніж оголосити переможця. Отже, я думаю, що 3 буде використано понад 2. Якщо ви хочете ще менший ризик помилки, ви можете вийти вище 3. Я використовував формулу для стандартної помилки, щоб дати ОП уявлення про те, як рівень визначеності залежить від i та j простим способом. Ускладнення ситуації ускладнювало б результат, і залежність I i та j не була б такою чітко видно.
Майкл Р. Черник

2
н2

3
Оскільки я отримую кілька поточних запитів, чи хтось пояснить це виправдання?
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.