Як можна судити про точність прогнозів Нейт Сілвер?


19

По-перше, він дає ймовірність результатів. Так, наприклад, зараз його прогнози щодо виборів у США - 82% Клінтон проти 18% Трампа.

Тепер, навіть якщо Трамп перемагає, то як я можу знати, що він виграв не лише 18% часу?

Інша проблема полягає в тому, що його ймовірності змінюються з часом. Тож 31 липня це було майже 50-50 між Трампом та Клінтоном.

Моє запитання, враховуючи, що він щодня має різну ймовірність для однієї і тієї ж майбутньої події з однаковим результатом, як я можу виміряти, наскільки точним він був для кожного дня, він зробив передбачення на основі інформації, яка була доступна до цього дня?


1
Я підозрюю, що ми не можемо. Для такої оцінки потрібен золотий стандарт, а найкращим є лише спостереження за попередніми виборами, які важко порівняти (оскільки всі вибори включатимуть альтернативні методи вибірки та поведінки виборців). Але я не є експертом у виборчих опитуваннях, тому залишаю це як коментар, а не відповідь :)
Тал Галілі

2
@TalGalili: ми можемо сказати хоча б щось, використовуючи правила скорингу - так само, як, наприклад, ми можемо сказати щось про неспостережувані параметри, які ми оцінюємо в регресіях.
S. Kolassa - Відновіть Моніку

Це, мабуть, "правило скорингу", але, для n подій, помножте його ймовірність тих подій, що відбуваються, і взяти n-й корінь, щоб отримати середній рівень прогнозування (припускаємо, що він ніколи не робить прогнозів 0%). Ви можете розглядати кожну щоденну ймовірність як окремий прогноз.
barrycarter

Чому ймовірності не можуть змінюватися з часом? Чи не змінюються шанси на спортивних змаганнях кожного разу, коли забивається гол чи впадає домашній забіг?
Родріго де Азеведо

8
Модель Сільвера дає набагато більше, ніж просто оцінка ймовірності - вона дає орієнтовну перемогу, яка виходить із ймовірностей виграшу та переваги перемоги для кожного з 50 штатів. Таким чином, це дає бальну оцінку та похибку для 50 різних вимірювань (хоча з деяким - ймовірно, високим ступенем кореляції між ними), а не просто передбачення єдиного бінарного результату.
Міхей

Відповіді:


14

Імовірнісні прогнози (або, як вони також відомі, прогнози щільності) можна оцінити, використовуючи , тобто функції, які відображають прогноз щільності та спостережуваний результат до так званого показника, який мінімізується в очікуванні, якщо прогноз щільності насправді прогнозувати справжню щільність. Правильні правила балів - це правила підрахунку балів, які зведені до мінімуму в очікуванні лише справжньої щільності майбутнього.

Існує досить багато таких правильних правил балів, починаючи з Brier (1950, Щомісячний огляд погоди ) в контексті вірогідного прогнозу погоди. Czado та ін. (2009, Biometrics ) дають новіший огляд дискретного випадку. Gneiting & Katzfuss (2014, Щорічний огляд статистики та її застосування ) дають огляд імовірнісного прогнозування в цілому - Зокрема, Gneiting дуже активно просувається у справі дотримання правильних правил скорингу.

Однак правила підрахунку балів дещо важко інтерпретувати, і вони справді допомагають лише у порівнянні декількох імовірнісних прогнозів - той, з нижчим балом, є кращим. До варіації вибірки, тобто завжди краще мати багато прогнозів, щоб оцінити, чиї бали ми б оцінили.

Як включити "оновлення" прогнозів Сільвера чи інших людей - це хороше питання. Ми можемо використовувати правила скорингу для порівняння "знімків" різних прогнозів за один момент часу, або ми могли навіть переглянути імовірнісні прогнози Сільвер у часі та обчислити бали в кожний момент часу. Можна сподіватися, що оцінка стає все нижчою і нижчою (тобто прогнози щільності стають все кращими і кращими), чим ближче до фактичного результату.


5
Інший спосіб сказати це: індивідуальну прогнозовану ймовірність унікальної події неможливо оцінити поодинці, але прогнозисти можуть бути оцінені (за допомогою функції оцінки).
kjetil b halvorsen

1
Бо "мінімізується в очікуванні", я думаю, ключовим питанням є очікування щодо того, який ансамбль? Чи приймаємо ми всі прогнози Нейт Сілвер? Лише тих, хто закінчив президентські вибори? Я не знаю, чи є тут одна відповідь. Для порівняння різних синоптиків прогнози щодо будь-якого загального набору подій можуть бути розумними.
GeoMatt22

@ GeoMatt22 - він має досить подібну методологію для інших виборів, тому може бути справедливим для узагальнення всіх прогнозів на вибори
DVK

11

У книзі Нейт Сілвер «Сигнал і шум» він пише наступне, що може дати деяке розуміння вашого питання:

Один з найважливіших тестів прогнозу - я б стверджував, що це єдиний найважливіший - називається калібрування. З усіх випадків, коли ви говорили, що на 40% можливий дощ, як часто насправді траплявся дощ? Якщо в довгостроковій перспективі дійсно йшов дощ близько 40% часу, це означає, що ваші прогнози були добре відкалібровані. Якщо замість цього закінчилося дощ лише 20 відсотків часу, або 60 відсотків часу, вони не були.

Отже, це піднімає кілька балів. Перш за все, як ви правильно зазначаєте, ви насправді не можете зробити ніякого висновку про якість єдиного прогнозу за результатом події, яку ви прогнозуєте. Найкраще, що ви можете зробити, - це побачити, як працює ваша модель протягом багатьох прогнозів.

Інша річ, над якою важливо подумати, - це те, що прогнози, які дає Нейт Сілвер, - це не сама подія, а розподіл ймовірності події. Тож у випадку президентської гонки він оцінює розподіл ймовірності перемоги у перемозі Клінтона, Трампа чи Джонсона. Тож у цьому випадку він оцінює багаточленний розподіл.

Але він насправді прогнозує гонку на набагато більш деталізованому рівні. Його прогнози оцінюють ймовірність розподілу відсотків голосів, які отримає кожен кандидат у кожному штаті. Отже, якщо ми розглянемо 3 кандидати, це може бути охарактеризовано випадковим вектором довжини 51 * 3 та прийняттям значень в інтервалі [0, 1], за умови обмеження, що пропорції дорівнюють 1 для пропорцій у стані. Число 51 полягає в тому, що інші - 50 штатів + ​​ДК (і насправді я думаю, що це насправді ще кілька, тому що деякі штати можуть розділити голоси виборчих колегій), а число 3 - через кількість кандидатів.

Зараз у вас не дуже багато даних, щоб оцінити його прогнози - він лише надав прогнози для останніх трьох виборів, про які я знаю (чи було більше?). Тому я не думаю, що є спосіб справедливої ​​оцінки його моделі, якщо ви насправді не мали модель в руці і не змогли б оцінити її за допомогою імітованих даних. Але все ж є кілька цікавих речей, які ви могли подивитися. Наприклад, я вважаю, що було б цікаво подивитися, наскільки точно він передбачив пропорції голосування за державою в конкретний момент часу, наприклад, тиждень від виборів. Якщо ви повторите це протягом декількох часових моментів, наприклад, вихідний тиждень, вихідний місяць, вихід 6 місяців і рік, ви можете запропонувати цікаву експозицію для його прогнозів. Одне важливе застереження: результати сильно співвідносяться між країнами в рамках виборів, тому ви не можете сказати, що у вас 51 штат * 3 випадки незалежного прогнозування виборів (тобто, якщо модель недооцінює результати роботи кандидатів в одній державі, вона, як правило, недооцінюватиме і в інших штатах) . Але, можливо, я б так подумав про це так, щоб у вас було достатньо даних, щоб зробити щось значиме.


4

Для будь-якого єдиного передбачення ви не можете, більше ніж ми можемо сказати, якщо твердження, що "ця монета має 60% шансу підійти до голови", близьке до виправлення з одного кидання.

Однак ви можете оцінити його методологію за багатьма прогнозами - для певних виборів він робить багато прогнозів, не лише загальної президентської гонки, але й багатьох прогнозів, пов'язаних з голосуванням за президента та багатьма іншими перегонами (будинок, сенат, губернаторство тощо), і він також використовує широко подібні методології з часом.

Існує багато способів зробити цю оцінку (деякі досить складні), але ми можемо переглянути деякі відносно прості способи, щоб зрозуміти це. Наприклад, ви можете розділити прогнози ймовірності виграшу на діапазони, наприклад (50-55%, 55-65% тощо), а потім побачити, яка частка прогнозів в цій смузі склалася; частка 50-55% прогнозів, які працювали, повинна бути десь між 50-55% залежно від того, де було середнє значення (плюс маржа для випадкових змін *).

Тож за цим підходом (або різними іншими підходами) ви можете бачити, чи розподіл результатів відповідав прогнозам на виборах чи на декількох виборах (якщо я пам'ятаю правильно, я вважаю, що його прогнози були частіше правильними, ніж повинні були бути) , що говорить про те, що його стандартні помилки в середньому були трохи завищені).

* ми повинні бути обережними, як оцінити це, хоча тому, що прогнози не є незалежними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.