Усі надані відповіді корисні, але вони не дуже статистично точні, тому я спробую це зробити. У той же час я збираюся дати загальну відповідь, а не зосереджуватися на цих виборах.
Перше, що потрібно пам’ятати, коли ми намагаємось відповідати на запитання про події в реальному світі, такі як Клінтон, яка перемогла на виборах, на відміну від складених математичних проблем, таких як виймання кульок різних кольорів з урни, - це те, що немає » t унікальний розумний спосіб відповісти на запитання, а отже, не є унікальною розумною відповіддю. Якщо хтось просто каже, що "Хілларі має 75% шансів на перемогу" і не продовжує описувати свою модель виборів, дані, які вони використовували для оцінки своїх результатів, результати перевірки моделі, їх основні припущення, чи є вони маючи на увазі народне голосування або голосування на виборах тощо, то вони насправді не сказали вам, що вони означають, тим більше не надали достатньо інформації для вас, щоб оцінити, чи є їх прогноз корисним. Крім того, це не
Отже, які процедури можуть використовувати статистики для оцінки шансів Клінтона? Справді, як вони могли вирішити цю проблему? На високому рівні існують різні поняття самої ймовірності, дві найважливіші з яких - частолістська та байєсівська.
X1,X2,…X1,X2,…,Xnn
На думку байесів , ймовірність представляє ступінь правдоподібності чи достовірності (що може бути, а може і не бути фактичним переконанням, залежно від того, ви є суб'єктивістським баєсом). 75% шансу на перемогу Клінтон означає, що вона виграє 75%. Достовірність, у свою чергу, може бути обрана вільно (виходячи з попередніх переконань моделі або аналітика) в межах обмежень основних законів ймовірності (як теорема Байєса , і той факт, що ймовірність спільної події не може перевищувати граничну ймовірність будь-якого з складові події). Одним із способів узагальнити ці закони є те, що якщо ви робите ставки на результат події, пропонуючи шанси гравцям відповідно до ваших правдоподібностей, жоден азартний гравець не може побудувати голландську книгупроти вас, тобто набір ставок, що гарантує, що ви втратите гроші незалежно від того, як подія насправді виходить.
Незалежно від того, чи приймаєте ви частолістські чи байєсовські погляди на ймовірність, все ще має бути прийнято багато рішень щодо аналізу даних та оцінки ймовірності. Можливо, найпопулярніший метод заснований на параметричних моделях регресії, таких як лінійна регресія. У цьому налаштуванні аналітик вибирає параметричне сімейство розподілів (тобто міри ймовірності ), яке індексується вектором чисел, що називається параметрами. Кожен результат - це незалежна випадкова величина, отримана з цього розподілу, трансформована відповідно до коваріатів, які є відомими значеннями (такими як рівень безробіття), які аналітик хоче використати для прогнозування результату. Аналітик вибирає оцінки значень параметрів, використовуючи дані та критерій примірності моделі, наприклад найменших квадратівабо максимальна ймовірність . Використовуючи ці оцінки, модель може дати прогнозування результату (можливо, лише одне значення, можливо інтервал чи інший набір значень) для будь-якого заданого значення ковариатов. Зокрема, він може передбачити результат виборів. Крім параметричних моделей, існують непараметричні моделі (тобто моделі, визначені сімейством розподілів, індексованим нескінченно довгим параметром вектора), а також методи вирішення прогнозованих значень, які не використовують моделі, за якою дані взагалі не створювалися. , наприклад, класифікатори найближчих сусідів та випадкові ліси .
Придумати прогнози - це одне, але як ви знаєте, чи є вони хорошими? Адже досить неточні прогнози гірші, ніж марні. Тестування прогнозів є частиною більш широкої практики перевірки моделі, тобто кількісної оцінки того, наскільки дана модель хороша для даної мети. Два популярні методи перевірки прогнозів - це перехресна перевірка та розділення даних на підгрупи навчання та тестування перед встановленням будь-яких моделей. Наскільки вибори, включені до даних, є репрезентативними щодо президентських виборів у 2016 році, оцінки прогнозованої точності, які ми отримуємо від підтвердження прогнозів, дозволять нам повідомити, наскільки точним буде наш прогноз президентських виборів у США 2016 року.