Ймовірність однієї майбутньої події в реальному житті: що це означає, коли кажуть, що "Хілларі має 75% шансу на перемогу"?


79

Оскільки вибори - це разова подія, це не експеримент, який можна повторити. Точно, що технічно означає твердження "Хілларі має 75% шансів на перемогу" ? Я шукаю статистично правильного визначення, не інтуїтивного чи концептуального.

Я фанат аматорської статистики, який намагається відповісти на це запитання, яке з'явилося в дискусії. Я впевнений, що є хороший об’єктивний відповідь на це, але я не можу сам це придумати ...


4
Оскільки опитування не дають імовірнісних оцінок і без подальшого контексту, це здається, що це твердження засноване на поточних результатах одного з ринків прогнозування, наприклад, електронного ринку Айови (див. Tippie.uiowa.edu/iem ). Більш глибокі пояснення див. На їхній сторінці «Методика» або в будь-якій із багатьох праць про ринки прогнозування.
Майк Хантер

13
Основне питання тут полягає в тому, чи можемо ми приєднати ймовірності до унікальних (тобто разових) подій, де ми не можемо застосувати емпіричні ймовірності таким чином, "якщо я пройду сумлінну велику кількість разів, частку разів я ролик із шести підійде до шостого ". Але є аргумент, що лише суб'єктивний ступінь переконання все ж повинен поводитися на практиці як "ймовірність" - більш технічно, він повинен підкорятися аксіомам ймовірності. Отже, філософський підхід до цього питання може посилатися на так званий аргумент Голландської книги .
Срібна рибка

19
75% речей, які мають 75% шансів на те, відбудеться.
immibis

2
Це залежить від джерела твердження; в деяких випадках це стосується ймовірності за якоюсь моделлю, наприклад (як, наприклад, оцінки ймовірностей на сайтах Fivethirtyeight.com), але в інших випадках вона стосується іншого контексту, це може означати щось інше.
Glen_b

3
Я прочитав з цього висновку, що очікуваний результат Клінтона - перемога, але довірчий інтервал цих цифр такий, що існує 25% шансів, що фактичний результат не такий, як очікуваний результат.
JimmyB

Відповіді:


60

Усі надані відповіді корисні, але вони не дуже статистично точні, тому я спробую це зробити. У той же час я збираюся дати загальну відповідь, а не зосереджуватися на цих виборах.

Перше, що потрібно пам’ятати, коли ми намагаємось відповідати на запитання про події в реальному світі, такі як Клінтон, яка перемогла на виборах, на відміну від складених математичних проблем, таких як виймання кульок різних кольорів з урни, - це те, що немає » t унікальний розумний спосіб відповісти на запитання, а отже, не є унікальною розумною відповіддю. Якщо хтось просто каже, що "Хілларі має 75% шансів на перемогу" і не продовжує описувати свою модель виборів, дані, які вони використовували для оцінки своїх результатів, результати перевірки моделі, їх основні припущення, чи є вони маючи на увазі народне голосування або голосування на виборах тощо, то вони насправді не сказали вам, що вони означають, тим більше не надали достатньо інформації для вас, щоб оцінити, чи є їх прогноз корисним. Крім того, це не

Отже, які процедури можуть використовувати статистики для оцінки шансів Клінтона? Справді, як вони могли вирішити цю проблему? На високому рівні існують різні поняття самої ймовірності, дві найважливіші з яких - частолістська та байєсівська.

  • X1,X2,X1,X2,,Xnn

  • На думку байесів , ймовірність представляє ступінь правдоподібності чи достовірності (що може бути, а може і не бути фактичним переконанням, залежно від того, ви є суб'єктивістським баєсом). 75% шансу на перемогу Клінтон означає, що вона виграє 75%. Достовірність, у свою чергу, може бути обрана вільно (виходячи з попередніх переконань моделі або аналітика) в межах обмежень основних законів ймовірності (як теорема Байєса , і той факт, що ймовірність спільної події не може перевищувати граничну ймовірність будь-якого з складові події). Одним із способів узагальнити ці закони є те, що якщо ви робите ставки на результат події, пропонуючи шанси гравцям відповідно до ваших правдоподібностей, жоден азартний гравець не може побудувати голландську книгупроти вас, тобто набір ставок, що гарантує, що ви втратите гроші незалежно від того, як подія насправді виходить.

Незалежно від того, чи приймаєте ви частолістські чи байєсовські погляди на ймовірність, все ще має бути прийнято багато рішень щодо аналізу даних та оцінки ймовірності. Можливо, найпопулярніший метод заснований на параметричних моделях регресії, таких як лінійна регресія. У цьому налаштуванні аналітик вибирає параметричне сімейство розподілів (тобто міри ймовірності ), яке індексується вектором чисел, що називається параметрами. Кожен результат - це незалежна випадкова величина, отримана з цього розподілу, трансформована відповідно до коваріатів, які є відомими значеннями (такими як рівень безробіття), які аналітик хоче використати для прогнозування результату. Аналітик вибирає оцінки значень параметрів, використовуючи дані та критерій примірності моделі, наприклад найменших квадратівабо максимальна ймовірність . Використовуючи ці оцінки, модель може дати прогнозування результату (можливо, лише одне значення, можливо інтервал чи інший набір значень) для будь-якого заданого значення ковариатов. Зокрема, він може передбачити результат виборів. Крім параметричних моделей, існують непараметричні моделі (тобто моделі, визначені сімейством розподілів, індексованим нескінченно довгим параметром вектора), а також методи вирішення прогнозованих значень, які не використовують моделі, за якою дані взагалі не створювалися. , наприклад, класифікатори найближчих сусідів та випадкові ліси .

Придумати прогнози - це одне, але як ви знаєте, чи є вони хорошими? Адже досить неточні прогнози гірші, ніж марні. Тестування прогнозів є частиною більш широкої практики перевірки моделі, тобто кількісної оцінки того, наскільки дана модель хороша для даної мети. Два популярні методи перевірки прогнозів - це перехресна перевірка та розділення даних на підгрупи навчання та тестування перед встановленням будь-яких моделей. Наскільки вибори, включені до даних, є репрезентативними щодо президентських виборів у 2016 році, оцінки прогнозованої точності, які ми отримуємо від підтвердження прогнозів, дозволять нам повідомити, наскільки точним буде наш прогноз президентських виборів у США 2016 року.


Мені ця відповідь дуже подобається, вказуючи, що я очікував побачити дві загальні точки зору. Я думаю, що менше було б більше, хоча.
Майк Мудрий

4
Вже є кілька стислих відповідей. Я хотів зробити спробу більш повної.
Кодіолог

7
Я не вважаю, що частолістський погляд є доцільним. Подія, як вибори, за своєю суттю невипадкова. Якщо ви повторите вибори мільйон разів за точно однакових умов, ви отримаєте той же результат мільйон разів. Ми просто штучно вводимо випадковість у наші моделі, щоб компенсувати наше неповне знання про умови.
Стефан

6
Це не суперечливе питання у філософії статистики. Моя власна думка полягає в тому, що жодна модель не є буквально правдою, але деякі моделі корисніші за інші.
Кодіолог

32

Коли статистики хочуть передбачити бінарний результат (Хілларі перемагає проти Хілларі не виграє), вони уявляють, що Всесвіт кидає уявну монету - Хедс, Хілларі перемагає; хвости, вона програє. Для деяких статистиків монета представляє ступінь віри у результат; для інших монета представляє, що може статися, якщо ми повторно проведемо вибори за тих самих обставин знову і знову. По-філософськи, важко зрозуміти, що ми маємо на увазі, коли ми говоримо про невизначені майбутні події, навіть перш ніж перетягувати цифри в них. Але ми можемо подивитися, звідки походить число.

На даний момент виборів у нас є послідовність результатів опитування. Вони мають форму: 1000 людей опитувались, скажімо, в Огайо. 40% підтримують Трампа, 39% підтримують Хілларі, 21% не вирішили. Були б аналогічні опитування з попередніх виборів для відповідних демократичних, республіканських (та інших кандидатів) кандидатів. Для попередніх років також є результати. Ви можете знати, що, скажімо, кандидати з 40% голосів у опитуванні в липні виграли 8 із 10 попередніх виборів. Або результати можуть сказати, що 7 із 10 виборів демократи взяли Огайо. Ви можете знати, як Огайо порівнює з Техасом (можливо, вони ніколи не вибирають одного і того ж кандидата) - у вас може бути інформація про те, як невдалий голос розбивається, - і у вас можуть бути цікаві моделі того, що станеться, коли кандидат починає «швидко збільшуватися».

Тож, беручи до уваги попередні вибори, можна сказати, що виборча монета вже кілька разів кидалася. Одні й ті самі вибори не повторюються кожні 4 роки, але ми можемо робити вигляд, що це таке. З усієї цієї інформації опитувальники будують складні моделі для прогнозування результатів цього року.

75% шансів на перемогу Хілларі виграє відносно нашого рівня знань "сьогодні". Це говорить про те, що кандидат із тими результатами опитування, які вона має "зараз", заявляє, що вона їх має, та враховуючи тенденції її опитувань протягом усієї кампанії, перемагає на виборах за 3 виборчі роки з 4. Місяць з Тепер її ймовірність перемоги зміниться, оскільки модель буде базуватися на стані опитувань у серпні.

У США не було статистично великої кількості виборів за свою історію, тим більше менше з моменту початку опитування. Ми також не можемо бути впевнені, що тенденції опитування, скажімо, 70-х, все ще застосовуються. Так що все трохи хитро.

Суть полягає в тому, що Хілларі повинна почати працювати над її інавгураційною промовою.


1
У неї все ще є мова про прийняття номінації, щоб пройти першою.
WBT

26

Коли статистики говорять про це, вони не мають на увазі межі перемоги чи частки голосів. Вони проводять велику кількість симуляцій виборів і підраховують, який відсоток голосів набирає кожен кандидат. Для багатьох надійних президентських моделей вони мають прогнози для кожної держави. Деякі близькі, і якщо перегони проходять кілька разів, обидва кандидати можуть виграти. Оскільки інтервали прогнозування багато разів перекривають запас перемоги 0, це не бінарний відповідь, а натомість моделювання дозволить нам сказати більш точно, чого очікувати.

Сторінка методології FiveThirtyEight може допомогти зрозуміти трохи більше, що знаходиться під кришкою: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/


17

Є епізод радіозв'язку, який дуже важливий для цього питання (загалом, не в специфіці виборів). У ньому Стівен Дабнер інтерв'ює керівника проекту із оборонного відомства США, щоб визначити найкращий спосіб прогнозувати глобальні політичні події.

Це [також] допомагає набагато більше знати про політику, ніж більшість людей. Я б сказав, що вони майже необхідні умови для доброго успіху. Але їх недостатньо, тому що є дуже багато людей, які дуже розумні і близькі. Є багато людей, які дуже розумні і думають, що неможливо прив’язати ймовірності до унікальних подій .

Потім вони обговорюють, що не робити

якщо ви задаєте такі типи питань, більшість людей кажуть: "Як би ви могли привласнити ймовірності тим, що здаються унікальними історичними подіями?" Просто не існує жодного способу зробити це. Найкраще, що ми можемо зробити насправді, - використовувати неясні багатослівні, робити неясні-багатослівні прогнози. Ми можемо сказати такі речі, як: «Ну, це може статися. Це могло статися. Це може статися ». І сказати, що щось могло статися, це не означає багато.

Тоді епізод переходить до методологій, які найбільш успішні синоптики використовували для оцінки цих ймовірностей, обстоюючи неформальний байєсівський підхід

Тож, нічого не знаючи ні про африканського диктатора, ні про країну, скажімо, я ніколи не чув про цього диктатора, я ніколи не чув про цю країну, і я просто дивлюсь на базову ставку і кажу: "Хм, схоже приблизно 87 відсотків ". Це була б моя початкова оцінка. Тоді питання: «Що мені робити?» Ну, тоді я починаю щось дізнаватися про країну та диктатора. І якщо я дізнаюся, що відповідному диктатору 91 рік і переніс рак простати, я повинен скорегувати свою ймовірність . І якщо я дізнаюся, що в столиці бунтують бунти і є натяки на військові перевороти в наступі, я знову повинен коригувати свою ймовірність . Але починаючи з базової ставки ймовірності - це хороший спосіб принаймні переконатися, що ви спочатку будете в барі правдоподібності.

Епізод називається Як бути менш жахливим при прогнозуванні майбутнього , і це дуже весело слухати. Я закликаю вас перевірити це, чи зацікавлені у вас подібні речі!


3
+1. У старшій посаді я накреслив цей підхід на прикладі бігу. Я мав на меті це зробити нейтрально щодо дебатів Баєсія проти частотолога, вказуючи, що байєсівські методи не є єдиним засобом для оцінки ймовірностей, прогнозування чи надання корисної інформації про, здавалося б, унікальні події. Я спробував визначити, яку саме роль відіграє ймовірність у таких аналізах, і, по суті, підкреслити необхідність точно оцінювати ймовірності (а не просто складати їх якимось "неінформативним" способом).
whuber

1
З цією темою пов'язана так звана суперечка «гарячих рук». У унікальному документі під назвою " Здивовані помилками азартних гравців та гарячих рук"? , Міллер і Сандюро пропонують переконливі докази того, що література десятиліттями помилялася, заперечуючи існування "гарячих рук". Історична література ґрунтувалася на безумовної вірогідності випробувань Бернуллі, тоді як умовна ймовірність кінцевої послідовності цих же випробувань підтверджує гарячу інтуїцію рук. Аналогічно до виборів можна трактувати ці вибори як результат послідовності умовно ймовірнісних результатів.
Майк Хантер

15

Вибори 2016 року - це дійсно разова подія. Але так само перегортання монети або кидання плашки.

Коли хтось стверджує, що знає, що кандидат має 75% шансів на перемогу, він не прогнозує результат. Вони стверджують, що знають форму штампу.

Результат виборів не може це визнати недійсним. Але якщо модель, якою вони користуються, щоб досягти 75%, перевірена на багатьох виборах, це може виявити обмежене прогностичне значення. Або може бути народженим як цінне.

Звичайно, як тільки кандидатам буде відомий цінний прогноз, він може змінити свою поведінку, і модель може стати неактуальною. Або це можна підірвати всі пропорційно. Подивіться, що відбувається в Айові.


7
+1 за "Вони стверджують, що знають форму штампу".
WBT

@WBT, ні, це зовсім неправильне повідомлення. 75% не мають нічого спільного з (фізичними) ймовірностями, які (як імовірно) регулюються випадковими подіями, такими як рулони кісток. Вони означають, що вони мають 75% ступінь визначеності
безперечно

1
@innisfree Метафора все ще корисна. Хоча я за вашими коментарями щодо інших відповідей визнаю, що ви не згодні (і ви можете залишити ще одну відповідь), 75% - це хтось, хто стверджує, що розподіл вірогідності результатів дорівнює рівню чотиристоронньої (пірамідальної) форми, на якій три з чотирьох сторін позначено "Хілларі". Метафора протікає трохи краще, якщо ви вважаєте, що "форма" також включає мітки.
WBT

6

Коли хтось каже, що "Хілларі має 75% шансу на перемогу", це означає, що якщо ви запропонували їм ставку, коли одна людина отримує 25 доларів, якщо Гілларі виграє, а інша людина отримає 75 доларів, якщо Хіларі не виграє, він вважатиме, справедлива ставка і не має жодної конкретної причини віддати перевагу будь-якій стороні.

Ці відсотки зазвичай надходять з ринків прогнозування. Вони узагальнюють усю наявну інформацію і, як правило, перевершують аналітичні методи прогнозування більшості подій.

Ринки прогнозування пропонують людям зробити ставку на те, відбудеться чи не відбудеться певна подія. Виплата встановлюється шляхом переговорів між людьми з обох сторін пропозиції. Як правило, люди, які мають спеціальні знання про пропозицію, намагатимуться використовувати ці знання, щоб заробити гроші, що має побічний ефект від витоку цієї інформації.

Наприклад, припустимо, що існує ринок прогнозів щодо того, чи буде жити певна знаменитість до кінця цього року. Громадськість знає вік знаменитості, і кожен може знайти основну ймовірність того, що знаменитість помре до кінця року. Якби це було все, що було відомо, ви б очікували, що люди будуть готові робити ставки на ту чи іншу сторону цієї пропозиції приблизно з такою ймовірністю.

Тепер, припустимо, хтось знав, що знаменитість погана, але приховувала це. Або навіть сказати, що багато людей знали, що в сім'ї знаменитостей була історія серцевих захворювань, що зменшило б шанси вижити. Люди з цією інформацією будуть готові прийняти одну сторону цієї пропозиції, що призведе до коригування курсу так само, як покупці підштовхують ціну акцій, а продавці її знижують.

Іншими словами, коли шанси занадто низькі, люди, які прагнуть отримати прибуток, підштовхують їх. А коли вони занадто високі, люди, які прагнуть отримати прибуток, штовхають їх. Ціна ставки в кінцевому підсумку відображає колективну мудрість кожного щодо шансів пропозицій, що відбуваються так само, як усі ціни відображають колективну мудрість щодо витрат і цінностей речей.


2
Шкода, що жодна інша відповідь не згадує про ставки, це, по суті, визначення того, що таке ймовірність ... схоже, що всі це забули.
Майкл Ле Барб'є Грюневальд

2
@ MichaelGrünewald: Не зовсім. Незважаючи на те, що шанси на азартні ігри можуть відображати справжні ймовірності (наприклад, ті, що стосуються колес рулетки чи карткових ігор), це не все. Шанси на те, хто виграє вибори, схожі на ціни на акції ... вони ґрунтуються насамперед на тому, як почуваються люди.
Роберт Харві

@RobertHarvey Справа в тому, що ймовірності виражають суб'єктивну віру (слово очікування повинно нам це нагадувати). Так, так, я можу створювати моделі, агрегувати інформацію, використовуючи найрозумніші способи, але врешті-решт, все, що можу констатувати, - це «З огляду на всю наявну інформацію, до якої я можу отримати доступ, я вважаю, що ці шанси на ставки справедливі». Не існує такого поняття, як "справжні ймовірності" - імовірне обчислення допомагає нам обчислювати наші переконання. Якщо, можливо, ви не хочете визначити "справжні ймовірності".
Майкл Ле Барб'є Грюневальд

@RobertHarvey Можна стверджувати, що все базується на тому, як почуваються люди. Якщо я роблю математичний аргумент, це тому, що я вважаю, що це правильно. Люди вільні вирішувати, які шанси прийняти на пропозицію пари будь-яким способом, який вони хочуть, довільним чи суворим. У хорошому методі прогнозування достатньо людей з інформацією, що кінцевий результат передає мудрість натовпу.
Девід Шварц

4

Ключове питання - як призначити ймовірність унікальній події. Відповідь полягає в тому, що ви розробляєте модель, за якою вона вже не є унікальною. Я думаю, простішим прикладом є те, яка ймовірність того, що президент помирає на посаді? Ви можете розглядати президента як людину певного віку, як людину певного віку та статі. І т.д. ... кожна модель дає вам різні прогнози ... апріорі немає правильної моделі. Це статистик повинен вибрати, яка модель є найбільш підходящою.


1
Незважаючи на те, що я дав довшу відповідь вище своєї "правильної" галочки, мені дуже подобається і ця. Перенесення питання на розбіжності президента, який помирає на посаді, пояснює це. Дякуємо КОЖНОМУ за все ваше вдумливе враження!
pitosalas

1
Існує рамка (байєсівська статистика) для присвоєння ймовірностей (ступенів правдоподібності) будь-якій гіпотезі, включаючи результати унікальних подій,
недоброзичливо

3

Враховуючи, що опитування показують дуже жорстку гонку, 75% можуть бути або не бути точними.

Ви запитуєте, що це означає, а не як вони це прорахували. Наслідком є ​​те, що (якщо ми проігноруємо когось іншого, окрім Клінтон та її головного опонента), вам потрібно буде зробити ставку на 3 долари, щоб отримати прибуток у розмірі 4 доларів, якщо вона виграє. Крім того, ставка в $ 1 на іншого бігуна поверне 4 долари, якщо він виграє.

У моїй відповіді є невелика різниця між реальним шансом будь-якого кандидата на перемогу та тим, що очікують люди (азартні гравці чи шанси). Я підозрюю, що коли ви бачите такі цифри, наприклад 75%, ви бачите показники коефіцієнтів, коли ви бачите від 49 до 48%, ви бачите результати опитування.


2
А оскільки запитуючий запитує про статистичний сенс, зауважте, що, хоча цього зазвичай не відбувається на виборах, ви цілком могли передбачити "жорсткий" результат, наприклад, 52/48, але все одно маєте 75% впевненості у переможці, не посилаючись на це до Вегасу за їхніми шансами. Наприклад, у фіналі Олімпіади серед чоловіків на 100 м перемога на перемогу складе менше 4%, але ваша статистична модель може передбачити ймовірного переможця. Вся справа в інтервалі довіри на тій 52/48, яка достатньо велика при прогнозуванні виборів, що зазвичай не означає 75% шансів.
Стів Джессоп

1
Я думаю, що JoeTaxpayer є дуже корисною, прагматичною (у філософському значенні цього терміна) перспективою. Це дещо неточне викладення теоретичного викладу. Саме так встановлюються шанси на пари на пари. Іншими характеристиками можуть бути "мудрість натовпу" або "ціна, орієнтована на ринок". Це дійсно вирішує питання, що я можу зробити з цією інформацією (якщо припустити, що я вірю)
DWin

1
Я не бачив згадки про колегію виборців. POTUS обирається через колегію виборців. Отже, якщо Клінтон отримує всього 51% від 51% виборчого коледжу, і ніхто з решти, то, маючи лише ~ 26% голосів населення, вона виграє. Таким чином, результати опитування, які, як правило, не вважають виборчі колегії, іноді помиляються.
MikeP

2
Опитування @MikeP не повідомляють про шанс на перемогу, вони звітують, ну а результати опитування. Моделі, які повідомляють про шанси на перемогу за результатами опитувань у різних штатах і беруть до уваги виборчий колегіум - принаймні, респектабельні.
варення

2

Якщо вони роблять це правильно, щось трапляється приблизно на три чверті тих часів, коли вони кажуть, що це 75% шансів на те, що це станеться. (або загалом, та ж ідея, адаптована до всіх відсоткових прогнозів)

Можна приписати більше значення, ніж те, що залежить від наших філософських поглядів та наскільки ми віримо моделям, але ця прагматична точка зору є чимось найнижчим загальним знаменником - принаймні, статистичними методами намагаються (хоча можливо як стороною ефект, а не безпосередньо), щоб робити прогнози, дотримуючись цієї прагматичної точки зору.


Ні, сенс явно гносеологічний / байєсівський, 75% ступеня віри. Ніхто не уявляє собі псевдоексперименти, в яких результат виборів є випадковою змінною.
інісфрі

@Innisfree: Якщо у вас вдвічі більше, ніж 75% віри в щось, виявляється, це неправильно, вам потрібно повторно відкалібрувати, як ви вимірюєте свою віру! Не потрібно брати участь у уявних експериментах, лише об’єктивна міра того, як часто ваша віра перетворювалася на реальність у минулому.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.