У книзі Нейт Сілвер «Сигнал і шум» він пише наступне, що може дати деяке розуміння вашого питання:
Один з найважливіших тестів прогнозу - я б стверджував, що це єдиний найважливіший - називається калібрування. З усіх випадків, коли ви говорили, що на 40% можливий дощ, як часто насправді траплявся дощ? Якщо в довгостроковій перспективі дійсно йшов дощ близько 40% часу, це означає, що ваші прогнози були добре відкалібровані. Якщо замість цього закінчилося дощ лише 20 відсотків часу, або 60 відсотків часу, вони не були.
Отже, це піднімає кілька балів. Перш за все, як ви правильно зазначаєте, ви насправді не можете зробити ніякого висновку про якість єдиного прогнозу за результатом події, яку ви прогнозуєте. Найкраще, що ви можете зробити, - це побачити, як працює ваша модель протягом багатьох прогнозів.
Інша річ, над якою важливо подумати, - це те, що прогнози, які дає Нейт Сілвер, - це не сама подія, а розподіл ймовірності події. Тож у випадку президентської гонки він оцінює розподіл ймовірності перемоги у перемозі Клінтона, Трампа чи Джонсона. Тож у цьому випадку він оцінює багаточленний розподіл.
Але він насправді прогнозує гонку на набагато більш деталізованому рівні. Його прогнози оцінюють ймовірність розподілу відсотків голосів, які отримає кожен кандидат у кожному штаті. Отже, якщо ми розглянемо 3 кандидати, це може бути охарактеризовано випадковим вектором довжини 51 * 3 та прийняттям значень в інтервалі [0, 1], за умови обмеження, що пропорції дорівнюють 1 для пропорцій у стані. Число 51 полягає в тому, що інші - 50 штатів + ДК (і насправді я думаю, що це насправді ще кілька, тому що деякі штати можуть розділити голоси виборчих колегій), а число 3 - через кількість кандидатів.
Зараз у вас не дуже багато даних, щоб оцінити його прогнози - він лише надав прогнози для останніх трьох виборів, про які я знаю (чи було більше?). Тому я не думаю, що є спосіб справедливої оцінки його моделі, якщо ви насправді не мали модель в руці і не змогли б оцінити її за допомогою імітованих даних. Але все ж є кілька цікавих речей, які ви могли подивитися. Наприклад, я вважаю, що було б цікаво подивитися, наскільки точно він передбачив пропорції голосування за державою в конкретний момент часу, наприклад, тиждень від виборів. Якщо ви повторите це протягом декількох часових моментів, наприклад, вихідний тиждень, вихідний місяць, вихід 6 місяців і рік, ви можете запропонувати цікаву експозицію для його прогнозів. Одне важливе застереження: результати сильно співвідносяться між країнами в рамках виборів, тому ви не можете сказати, що у вас 51 штат * 3 випадки незалежного прогнозування виборів (тобто, якщо модель недооцінює результати роботи кандидатів в одній державі, вона, як правило, недооцінюватиме і в інших штатах) . Але, можливо, я б так подумав про це так, щоб у вас було достатньо даних, щоб зробити щось значиме.