Чи мають рядки помилок щодо ймовірностей якесь значення?


25

Люди часто кажуть, що певна подія має 50-60% шансів відбутися. Іноді я навіть бачу, як люди дають явні смуги помилок у присвоєнні ймовірностей. Чи мають ці висловлювання якесь значення чи вони просто мовна вигадка дискомфорту, вибираючи конкретне число для чогось, що по суті не пізнається?


1
Хіба ймовірно приблизно правильна рамка в теорії обчислювального навчання не робить саме цього, як правило, даючи обмеження на коефіцієнт помилок класифікатора, який має вірогідність 1δ ? Якби це була безглузда концепція, я сумніваюся, що ті (надзвичайно розумні) люди з CoLT не змогли б її помітити!
Дікран Марсупіал

5
@DikranMarsupial Помилки в навчанні PAC полягають не в самих імовірностях (про які задається цим питанням), а в даних. Тобто, ми називаємо вихід алгоритму, ймовірно, приблизно коректним, якщо ми можемо довести, що при ймовірності 1δ відповідь знаходиться на відстані ε від істинного значення.
Дискретна ящірка

@Discretelizard, але в налаштуваннях класифікації, чи не обмежений показник помилок (що є ймовірністю помилки)? Здавна я дивився на CoLT!
Дікран Марсупіал

1
@DikranMarsupial У загальній настройці для навчання PAC частина "приблизна" вимірює "величину" помилки, а не "ймовірність". Мотивація меж PAC полягає в отриманні більш тонкого аналізу, ніж, наприклад, очікуваний ризик. Я не думаю, що це змінюється в налаштуваннях класифікації, хоча для PAC це має сенс, між класами має бути визначена "відстань" (або функція втрати). (у більш окремому випадку двійкової класифікації існує лише один спосіб помилки, тому приблизна частина не має сенсу в цьому випадку)
Дискретна ящірка

Відповіді:


36

Не було б сенсу, якби ви говорили про відомі ймовірності, наприклад, при справедливій монеті ймовірність кинути голови становить 0,5 за визначенням. Однак, якщо ви не говорите про приклад підручника, точна ймовірність ніколи не відома, ми лише знаємо її приблизно.

Інша історія полягає в тому, що ви оцінюєте ймовірності за даними, наприклад, ви помітили 13 виграшних квитків серед 12563 придбаних квитків, так з цих даних ви оцінюєте ймовірність 13/12563. Це те, що ви оцінили з вибірки, тому невірно, адже за різної вибірки ви могли спостерігати різну цінність. Оцінка невизначеності стосується не ймовірності, а навколо її оцінки.

Іншим прикладом може бути те, коли ймовірність не фіксована, а залежить від інших факторів. Скажіть, що ми говоримо про ймовірність загибелі в автомобільній аварії. Ми можемо вважати "глобальну" ймовірність, єдину величину, яка маргіналізована над усіма факторами, які прямо та опосередковано призводять до автомобільних аварій. З іншого боку, ви можете розглянути, як різняться ймовірності серед населення, враховуючи фактори ризику.

Ви можете знайти ще багато прикладів, коли самі ймовірності вважаються випадковими змінними , тому вони змінюються, а не фіксуються.


1
Якби розрахунок оцінки ймовірності здійснювався через щось на зразок логістичної регресії, не було б також природним припустити, що ці "смуги помилок" стосуються інтервалів прогнозування? (Я прошу в основному як уточнення до першого пункту, який ви піднімаєте, +1 очевидно)
usεr11852 каже Reinstate Monic

1
@ usεr11852 довірчі інтервали, інтервали прогнозування, області найвищої щільності тощо, залежно від фактичного випадку. Я зробив відповідь дуже широкою, оскільки ми маємо "різні" ймовірності в багатьох сценаріях, і вони різняться по-різному. Також ви можете інтерпретувати їх по-різному в різних сценаріях.
Тім

1
Навіть "відомі" ймовірності можуть бути скороченими для дуже малих смужок помилок. Можна припустити, що обертання монети, можливо, становить 50,00001% - 49,99999% з достатньою кількістю випробувань, щоб отримати досить малі смуги помилок, що виключають 50,00000%. Не існує фізичного закону, який би припускав, що шанси мають бути точно навіть для асиметричної монети, але смуги помилок - занадто малі, щоб хтось не піклувався.
Ядерна Ванга

5
@NuclearWang це пояснюється вживанням в ОП словосполученням "справедлива монета". За визначенням, P (HEADS) для справедливої ​​монети становить 0,5. Справедлива монета - математична конструкція. Я б запропонував редакцію замінити "за законами фізики" на "за визначенням", щоб наголосити на цьому.
De Novo підтримує GoFundMonica

2
@DeNovo те саме стосується фізичних монет stat.columbia.edu/~gelman/research/published/diceRev2.pdf , але так, я сказав "справедливо", щоб не починати цю дискусію
Тім

23

Найбільш актуальна ілюстрація з xkcd :

введіть тут опис зображення

із пов'язаним заголовком:

... розмір ефекту 1,68 (95% ДІ: 1,56 (95% ДІ: 1,52 (95% ДІ: 1,550) (95% ДІ: 1,449 (95% ДІ: 1,448) (95% ДІ: 1,485 (95% ДІ: 1,448) (95% ДІ: 1,481 (95% ДІ: 1,44799 (95% ДІ: 1,44791 (95% ДІ: 1,44784 ...


Чи означає це, що смужки помилок щодо ймовірностей є зайвими?
BalinKingOfMoria

12
Жартуючи окремо, це означає, що точність барів помилок невизначена і що оцінка невизначеності сама по собі є невизначеною, у нескінченному регресі.
Сіань

7
Ось чому я вважаю картину актуальною і глибоко пов'язаною з основними труднощами (і красивою проблемою) оцінки помилок у статистиці.
Сіань

14
Цей малюнок ілюструє мета-невизначеність , яка може бути пов’язана з невизначеністю ймовірності, оскільки сама невизначеність є мірою ширини розподілу ймовірностей, але ваш пост не пояснює це жодним чином; насправді комікс XKCD припускає, що він має щось спільне з поширенням помилок (що хибно), чого питання не відповідає.
Герріт

6

Мені відомі дві інтерпретації. Перший сказав Тім: Ми спостерігали X успіхи з Y випробувань, тому, якщо ми вважаємо, що випробування були в iid, ми можемо оцінити ймовірність процесу в X/Y допомогою деяких рядків помилок, наприклад, порядку 1/Y .

Другий передбачає "ймовірності вищого порядку" або невизначеності щодо процесу генерації. Наприклад, скажіть, що у мене в монеті виготовлений майстер графа , який з 0.5 ймовірністю зробив монету на 60%, і 0.5 ймовірністю зробив монету на 40%. Моя найкраща здогадка - це 50% шанс, що монета підійде до голови, але з великими смужками помилок: "справжній" шанс - або 40%, або 60%.

Іншими словами, ви можете уявити собі експеримент в мільярд разів і взяти частку успіхів X/Y (фактично обмежуючий дріб). Принаймні, з байєсівської точки зору, має сенс дати, наприклад, 95% -ний інтервал довіри навколо цього числа. У наведеному прикладі, з огляду на сучасні знання, це [0.4,0.6] . Для реальної монети, можливо, вона є [0.47,0.53] чи щось таке. Докладніше див:

Чи потрібні нам ймовірності вищого порядку, і якщо так, то що вони означають? Іудея Перл. UAI 1987. https://arxiv.org/abs/1304.2716


4

Всі вимірювання невизначені.

Тому будь-яке вимірювання ймовірності також є невизначеним.

Цю невизначеність щодо вимірювання ймовірності можна візуально представити смугою невизначеності. Зауважте, що смуги невизначеності часто називають смугами помилок. Це невірно або, принаймні, вводить в оману, оскільки воно показує невизначеність, а не помилку (помилка - різниця між вимірюванням і невідомою істиною, тому помилка невідома; невизначеність - це міра ширини щільності ймовірності після взяття вимірювання).

Пов'язана тема - мета-невизначеність . Невизначеність описує ширину функції апостеріорного розподілу ймовірності, а у випадку невизначеності типу А (невизначеності, оціненої за допомогою повторних вимірювань) неминуча невизначеність; метрологи сказали мені, що метрологічна практика диктує розширення невизначеності в цьому випадку (IIRC, якщо невизначеність оцінюється стандартним відхиленням N повторних вимірювань, слід помножити отримане стандартне відхилення на NN2 ), що по суті є мета-невизначеністю.


3

prob(A|Θ=θ,I)IΘ=θ0prob(Θ=θ|I)=δθθ0

prob(A|I)=θprob(A|Θ=θ,I)δθθ0=prob(A|Θ=θ0,I)

ΘIprob(Θ=θ|I)prob(A|I)AΘ=θΘA

prob(A,Θ=θ|I)=prob(A|Θ=θ,I)prob(Θ=θ|I)prob(A|I)=θprob(A|Θ=θ,I)prob(Θ=θ|I)

Таким чином, додавання смужок помилок до ймовірності подібне до додавання невизначеності параметрам неприємностей, які можуть змінювати ймовірність, але не можуть зробити його невизначеним.


1

Дуже часто бувають випадки, коли ви хочете мати вірогідність. Скажімо, наприклад, ви працювали над безпекою харчових продуктів і використовували модель аналізу виживання, щоб оцінити ймовірність того, що спори ботуліну проростуть (і, таким чином, вироблять смертоносний токсин), залежно від етапів приготування їжі (тобто приготування їжі) та часу / температури інкубації (пор. папір). Потім виробники продуктів харчування можуть захотіти використовувати цю модель для встановлення безпечних термінів використання, щоб ризик ботулізму споживачів був відповідним чином невеликим. Однак модель підходить до кінцевої вибірки навчання, тому замість вибору дати використання, для якої ймовірність проростання менша, ніж, скажімо, 0,001, ви можете вибрати більш ранню дату, для якої (зважаючи на припущення щодо моделювання) Ви можете бути на 95% впевнені, що ймовірність проростання менше 0,001. Це здається досить природною справою в байєсівській обстановці.


0

tl; dr - Будь-яка одноразова здогадка конкретного відгадника може бути зведена до однієї ймовірності. Однак це лише тривіальний випадок; структури ймовірностей можуть мати сенс, коли є якась контекстна релевантність, що перевищує лише одну ймовірність.


Шанс випадкової посадки монети на Heads становить 50%.

Не має значення, справедлива монета чи ні; принаймні, не мені. Оскільки, хоча монета може мати упередження, які обізнаний спостерігач міг би використовувати для більш обізнаних прогнозів, я повинен був би здогадатися на 50% шансів.

HeadsTails50%50%.
First flipSecondflipHeadsTailsHeads25%25%Tails25%25%,
Same sidetwiceHeadsand Tails50%50%.

PHeads,

HeadsTailsPHeads1PHeads.
First flipSecondflipHeadsTailsHeadsPHeads2PHeads(1PHeads)TailsPHeads(1PHeads)(1PHeads)2,
Same sidetwiceHeadsand Tails12PHeads(1PHeads)2PHeads(1PHeads).
PHeads,50%,

Так це те саме, правда?

Виявляється, шанси отримати дві голови або хвости завжди більше, ніж отримати одну з кожної, за винятком спеціального випадку абсолютно справедливої ​​монети. Отже, якщо ви зменшите таблицю, припускаючи, що сама ймовірність охоплює невизначеність, ваші прогнози були б абсурдними, коли їх розширити.

PHeads

50%",probably about 50%".

І те, що я намагаюся сказати, приблизно:

50%.


Люди часто кажуть, що певна подія має 50-60% шансів відбутися.

Якщо ви сіли з ними і опрацювали всі їх дані, моделі тощо, ви зможете генерувати кращу кількість або, в ідеалі, кращу модель, яка б більш надійно зафіксувала їх здатність прогнозування.

PHeads=50%


0

Я б заперечував, що мають значення лише смужки помилок, але в наведеному прикладі вся справа, мабуть, майже безглузда.
Приклад піддається інтерпретації як довірчий інтервал, у якому верхня і нижня межі певної ступеня визначеності є діапазоном вірогідності. Ця запропонована відповідь стосуватиметься такого тлумачення. Джерело більшості - https://www.amazon.com/How-Measure-Anything-Intangibles-Business-ebook/dp/B00INUYS2U


Приклад говорить про те, що за певного рівня впевненості відповідь навряд чи буде вище 60% і однаково навряд чи буде нижче 50%. Це настільки зручний набір чисел, що він нагадує "бінінг", в якому плагіни на 55% додатково перекидаються на діапазон +/- 5%. Знайомі круглі цифри одразу підозрюють.
Один із способів досягти інтервалу довіри - це визначитися з обраним рівнем довіри - скажімо, 90% - і ми допускаємо, щоб річ могла бути або нижчою, або вище, ніж наша оцінка, але шанси лише на 10% "правильна" відповідь лежить поза нашим інтервалом. Отже, ми оцінюємо вищу межу таким чином, що "є лише на 1/20 шанс правильної відповіді бути більшою за цю верхню межу", і робимо подібну для нижньої межі. Це можна зробити за допомогою "каліброваної оцінки", яка є однією з форм вимірювання, або через інші форми вимірювання.
Незважаючи на те, справа в тому, щоб А) визнати з самого початку, що існує невизначеність, пов'язана з нашою невизначеністю, і Б) уникайте кидати руки на річ, називаючи це безладом, а просто дотримуйтесь 5% вище та знизу. Перевага полягає в тому, що суворий підхід до обраної ступеня може дати результати, які все ще є математично релевантними, до ступеня, яку можна констатувати математично: "Є 90% шансів, що правильна відповідь лежить між цими двома межами ..." Це - це правильно сформований довірчий інтервал (CI), який може бути використаний у подальших розрахунках.
Більше того, привласнюючи йому впевненість, ми можемо відкалібрувати метод, який використовується для досягнення оцінки, порівнюючи прогнози та результати та діючи на те, що ми виявимо для поліпшення методу оцінки. Нічого не можна зробити ідеальним, але багато речей можна зробити на 90% ефективними.
Зауважимо, що 90% ІС не має нічого спільного з тим, що приклад, наведений в ОП, містить 10% поля та опускає 90%.
Який розмах крилвід Boeing 747-100 до 90% ІС? Ну, я на 95% впевнений, що це не більше 300 футів, і я однаково впевнений, що він не менше 200 футів. Отже, зверху голови я дам вам 90% ІС 200 -235 футів.
Зверніть увагу, що немає "центральної" оцінки. КІ не формуються здогадами плюс факторами фальсифікації. Тому я кажу, що смужки помилок, ймовірно, мають значення більше, ніж дана оцінка.


Однак, інтервальна оцінка (все вище) не обов'язково краща за точкову оцінку з належним чином промальованою помилкою (що в даний момент є поза моїм нагадуванням - я пам'ятаю лише, що це часто робиться неправильно). Я просто кажу, що багато оцінок, виражених як діапазони - і я загрожую, що більшість діапазонів із круглими числами - це точка + помилка, а не оцінки інтервалу чи точки + помилки.


Одне правильне використання точки + помилки:

"Машина наповнює чашки рідиною, і вона повинна бути відрегульована таким чином, щоб вміст чашок був 250 г рідини. Оскільки машина не може наповнити кожну чашку рівно 250,0 г, вміст, що додається до окремих чашок, демонструє певну зміну, і вважається випадковою змінною X. Передбачається, що ця варіація зазвичай розподіляється навколо бажаного середнього значення 250 г, із стандартним відхиленням, σ, 2,5 г. Щоб визначити, чи машина адекватно відкалібрована, зразок n = 25 склянки з рідиною вибирають навмання, а чашки зважують. Отримана вимірювана маса рідини - X1, ..., X25, випадкова проба з X. "

Ключовий момент: у цьому прикладі як середнє значення, так і помилка задаються / припускаються, а не оцінюються / вимірюються.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.