Чи є приклади, коли достовірні інтервали Байєса, очевидно, поступаються інтервалам довіри часто


81

Нещодавнє запитання про різницю між достовірністю та достовірними інтервалами змусило мене перечитати статтю Едвіна Джейнеса на цю тему:

Jaynes, ET, 1976. «Інтервали довіри проти баєсовських інтервалів», в основах теорії ймовірностей, статистичних виводах та статистичних теоріях науки, В. Л. Харпер та Каліфорнія Хукер (ред.), Д. Райдель, Дордрехт, с. 175; ( pdf )

У рефераті Джейн пише:

... ми демонструємо байєсівські та ортодоксальні рішення шести загальних статистичних проблем, що включають довірчі інтервали (включаючи тести на значимість, засновані на одних і тих же міркуваннях). У кожному випадку ми виявляємо, що ситуація є прямо протилежною, тобто метод Байєса легше застосувати і дає ті самі або кращі результати. Дійсно, православні результати задовільні лише тоді, коли вони тісно (або точно) згодні з байєсівськими результатами. Жодного протилежного прикладу ще не наводять.

(наголос мій)

Документ був опублікований у 1976 році, тому, можливо, справи пішли далі. Моє запитання: чи є приклади, коли частотний інтервал довіри явно перевершує достовірний інтервал Байєса (відповідно до виклику, який явно робив Джейнс)?

Приклади, засновані на неправильних попередніх припущеннях, неприйнятні, оскільки вони нічого не говорять про внутрішню послідовність різних підходів.


21
За досить м'яких припущень: (a) процедури Байєсової оцінки є допустимими, і (b) всі, або майже всі, допустимі оцінки є баєсами щодо деяких попередніх. Таким чином, не дивно, що байєсівський інтервал довіри "дає ті самі або кращі результати". Зауважимо, що мої твердження (а) та (б) є частиною періодичного аналізу теорії раціональних рішень. Там, де часто відвідувачі працюють з байєсами, не переймається математикою чи навіть статистичними процедурами, але стосується значення, обґрунтування та правильного використання попередньої проблеми для будь-якої конкретної проблеми.
whuber

1
Отже, чи означає вищезазначений коментар, що відповідь на запитання ОП: "Таких прикладів не можна побудувати". Чи, можливо, існує якийсь патологічний приклад, який порушує припущення щодо прийнятності?

1
@Srikant: Добре запитання. Я думаю, що місцем для початку дослідження є ситуація, коли є неприпустимі оцінки Байєса - не обов'язково "патологічні", а принаймні такі, що дають певну можливість знайти "протилежний приклад".
whuber

2
Я хотів би додати трохи ясності до "неправильних попередніх припущень ...", заявивши, що байєсівська відповідь і частолістська відповідь повинні використовувати ту саму інформацію , інакше ви просто порівнюєте відповіді на два різні питання. Хоча велике запитання (+1 від мене)
ймовірністьлогічний

3
патологія чи ні, це, мабуть, було б першим у своєму роді. Мені дуже хочеться бачити цей приклад, оскільки ці "патології", як правило, мають для них хороший навчальний елемент
ймовірністьлогічний

Відповіді:


52

Я раніше казав, що хочу відповісти на питання, тож ось ...

Джейнес був трохи неслухняний у своїй роботі тим, що частолістський інтервал довіри не визначається як інтервал, де ми можемо очікувати, що справжня цінність статистики лежить з високою (заданою) ймовірністю, тому не надто дивно, що суперечності виникають, якщо їх тлумачити так, ніби вони є. Проблема полягає в тому, що часто застосовуються довірчі інтервали на практиці, оскільки велика ймовірність містити справжнє значення (враховуючи те, що ми можемо зробити з нашої вибірки даних) - те, чого ми часто хочемо.

Ключовим питанням для мене є те, що коли виникає запитання, найкраще мати пряму відповідь на це питання. Наскільки достовірні інтервали Байесія гірші, ніж часто-довірні інтервали довіри, залежить від того, яке питання було задано фактично. Якщо поставлене запитання було:

(а) "Дайте мені інтервал, де справжнє значення статистики лежить з вірогідністю p", тоді, схоже, частоліст не може насправді відповісти на це питання безпосередньо (і це вводить види проблем, про які Джейнес обговорює у своїй роботі), але Байесівська, може, саме тому достовірний інтервал Байєса перевершує частотний інтервал довіри в прикладах, наведених Джейнес. Але це лише тому, що це "неправильне питання" для частолістів.

(б) "Надайте мені інтервал, де, якби експеримент повторювався велику кількість разів, справжнє значення статистики лежало б у межах p * 100% таких інтервалів", тоді відповідь частоліст - це саме те, що ви хочете. Байєсівці також можуть дати пряму відповідь на це питання (хоча це може бути не просто очевидним достовірним інтервалом). Коментар Вюбера на запитання припускає, що це так.

Отже, по суті, справа в правильному конкретизації питання та правильній інтерпретації відповіді. Якщо ви хочете задати питання (а), тоді використовуйте достовірний інтервал Байєса, якщо ви хочете задати питання (b), тоді використовуйте частолістський інтервал довіри.


2
Добре сказано, особливо щодо того, на яке питання відповідає СІ насправді. Однак у статті Джейнеса він згадує, що CI (і найбільш часті процедури) розроблені для того, щоб добре працювати "в довгостроковій перспективі" (наприклад, як часто ви бачите або "для великих n розподілу є приблизно ... "припущення у частолістських методах?), але існує багато таких процедур, які можуть це зробити. Я думаю, що саме тут частотні методи (послідовність, зміщення, конвергенція тощо) можуть бути використані для оцінки різних байєсівських процедур, між якими важко визначитися. n
ймовірністьлогічний

1
"Джейнес був трохи неслухняний у своїх роботах ..." Я думаю, що справа, яку намагався зробити Джейнес (або пункт, який я взяв з неї), полягає в тому, що Інтервали довіри використовуються для відповіді на питання а) у великій кількості випадки (я б припускав, що кожен, хто тільки займається частою підготовкою, буде використовувати СІ, щоб відповісти на запитання а), і вони подумають, що вони є відповідною частофілістською відповіддю)
ймовірність вірогідного

2
так, "трохи неслухняно" я просто мав на увазі, що Джейнес робив крапку в досить помилково конфронтаційній (але також розважальній) манері (або, принаймні, так я читаю). Але якби він цього не зробив, це, мабуть, не мало б ніякого впливу.
Дікран Марсупіал

23

Це приклад "уточненого", наведений у книзі, написаній Ларрі Вассерманом, вся статистика на сторінці 216 ( 12,8 Сильні та слабкі сторони Байєсового висновку ). Я в основному надаю те, що Вассерман не містить у своїй книзі 1) пояснення того, що відбувається насправді, а не лінію відкидання; 2) частістська відповідь на запитання, яке Васерман зручно не дає; та 3) демонстрація того, що еквівалентна довіра, обчислена за допомогою тієї ж інформації, страждає від тієї ж проблеми.

У цьому прикладі він констатує таку ситуацію

  1. Спостереження, X, з розподілом вибірки:(X|θ)N(θ,1)
  2. Попередній розподіл (він фактично використовує загальну для дисперсії, але його діаграма спеціалізується на )τ 2 τ 2 = 1(θ)N(0,1)τ2τ2=1

Потім він показує, що використання байєсівського 95% достовірного інтервалу в цій налаштуваннях в кінцевому підсумку має 0% частотного покриття, коли справжнє значення стає довільно великим. Наприклад, він надає графік покриття (p218) і перевіряє, коли справжнє значення дорівнює 3, покриття становить близько 35%. Потім він продовжує говорити:θθθ

... Що з цього слід зробити висновок? Важливо зрозуміти, що частолістські та баєсовські методи відповідають на різні запитання. Щоб поєднати попередні переконання з даними принципово, використовуйте байєсівські умовиводи. Для побудови процедур із гарантованою продуктивністю на тривалий час, таких як інтервали довіри, використовуйте частофілістські методи ... (p217)

А далі рухається без будь-яких відхилень чи пояснень, чому байєсівський метод виглядав так погано. Далі, він не дає відповіді з боку частолістського підходу, просто широке висловлювання про "довгостроковість" - класична політична тактика (підкреслюйте вашу силу + інші слабкості, але ніколи не порівнюйте як за подібне).

Я покажу, як заявлена проблема може бути сформульована в часто-часто / православному вираженні, а потім покажу, що результат, використовуючи довірчі інтервали, дає точно таку ж відповідь, як і байєсівська . Таким чином, будь-який дефект байєсів (справжній чи сприйнятий) не виправляється за допомогою довірчих інтервалів.τ=1

Гаразд, так ось іде. Перше запитання, яке я задаю, - який стан знань описується попереднім ? Якщо хтось не знав про , то відповідний спосіб виразити це - . Тепер припустимо , що ми не знали, і ми спостерігали , незалежно від . Яким би був наш задник ?θ p ( θ ) 1 Y N ( θ , 1 ) X θθN(0,1)θp(θ)1YN(θ,1)Xθ

p(θ|Y)p(θ)p(Y|θ)exp(12(Yθ)2)

Таким чином . Це означає, що попередній розподіл, наведений у прикладі Вассермана, еквівалентний тому, що спостерігали iid-копію рівну . Методи не частотні можуть мати справу з до, але це можна розглядати як зробивши 2 спостережень з розподілу вибірки, один дорівнює , і один дорівнює . Обидві проблеми є цілком рівноцінними, і ми можемо дати відповідь часто.(θ|Y)N(Y,1)X00X

Оскільки ми маємо справу з нормальним розподілом з відомою дисперсією, середнє значення є достатньою статистикою для побудови довірчого інтервалу для . Середнє значення дорівнює і має розподіл вибірки¯ x = 0 + Xθx¯=0+X2=X2

(x¯|θ)N(θ,12)

Таким чином, CI задається:(1α)%

12X±Zα/212

Але, використовуючи результати прикладу 12.8 для Вассермана, він показує, що задній достовірний інтервал для задається:θ(1α)%θ

cX±cZα/2
.

Де . Таким чином, підключення значення при дає і достовірний інтервал стає:c=τ21+τ2τ2=1c=12

12X±Zα/212

Які точно такі, як довірчий інтервал! Тож будь-який дефект покриття, виявлений методом Байєса, не виправляється за допомогою частотистського довірчого інтервалу! [Якщо частоліст вирішив ігнорувати попереднє, то для справедливого порівняння байєсівці також повинні проігнорувати це попереднє значення і використати ігнорування до , і два інтервали все одно будуть рівні - обидва ].p(θ)1X±Zα/2)

То що, чорт тут, відбувається? Проблема полягає в основному в ненапруженості нормального розподілу вибірки. тому що проблема еквівалентна тому, що вже спостерігали iid копію, . Якщо ви помітили , то це вкрай малоймовірно , якщо справжнє значення дорівнює (ймовірність того, що коли дорівнює 0,000032). Це пояснює , чому висвітлення настільки погано для великих «істинних цінностей», тому що вони фактично роблять неявне спостереження , що міститься в попередньому якості викиду . Насправді ви можете показати, що цей приклад в основному еквівалентний показанню того, що середнє арифметичне має функцію без обмеженого впливу.X=00θ=4X0θ=4

Узагальнення. Тепер деякі люди можуть сказати, "але ви вважали, що , це може бути особливим випадком". Це неправда: будь-яке значення можна інтерпретувати як спостереження за iid копіями які всі дорівнювали , крім питання. Інтервал довіри матиме однакові "погані" властивості покриття для великих . Але це стає все більш малоймовірним, якщо ви продовжуватимете спостерігати значення (і жодна раціональна людина не буде продовжувати турбуватися про великі коли ви постійно бачите ).τ=1τ2=1N (N=0,1,2,3,)NX0Xθ0θ0


1
Дякую за аналіз AFAICS це лише приклад проблеми, спричиненої неправильним (інформативним) попереднім припущенням, і нічого не говорить про внутрішню послідовність байєсівського підходу?
Дікран Марсупіал

1
Ні, попереднє значення не обов'язково є невірним, якщо тільки перед проведенням експерименту фактично не спостерігали значення (або не отримали певних еквівалентних знань). Це в основному означає, що коли справжня стає довільно великою, ймовірність спостереження за цими неявними спостереженнями стає довільно малою (як отримання "невдалої вибірки"). 0θ
ймовірністьлогічний

ви можете побачити, помітивши , що зразок складається з спостереження в і ще один на . фіксовано (тому, що його спостерігали), але у більшості випадків буде "близьким" до . Оскільки стає великим, середнє значення вибірки стає все далі і далі від і , а оскільки дисперсія фіксована, ширина CI є фіксованою, тому вона з часом не буде містити ні ні , а значить, не знаходитись поблизу будь-якого з двох ймовірних значень (для одного з них є інше, коли вони стають далеко один від одного, для фіксованого )0X0XθθX0X0θθ
ймовірністьлогічний

10

Кіт Вінстейн,

EDIT: Просто для уточнення, ця відповідь описує приклад, наведений у відповіді Кіта Уінштейна про короля із жорстокою статистичною грою. У відповідях Байесія та Частота використовуються однакові відомості, які ігнорують інформацію про кількість справедливих та несправедливих монет при побудові інтервалів. Якщо ця інформація не буде ігнорована, частофіліст повинен використовувати інтегровану бета-біноміальну ймовірність як розподіл вибірки при побудові інтервалу довіри; в цьому випадку інтервал довіри Клоппер-Пірсон не є відповідним, і його потрібно змінити. Аналогічне коригування має відбутися в байєсівському розчині.

РЕДАКТУВАННЯ: Я також уточнив первинне використання шлангового пірсонського інтервалу.

EDIT: на жаль, мій альфа - це неправильний шлях, а мій інтервал закритої грудки невірний. Мої найскромніші вибачення у @whuber, який правильно вказав на це, але з яким я спочатку не погодився і проігнорував.

ІС з використанням методу Clopper Pearson дуже хороший

Якщо ви отримаєте лише одне спостереження, то інтервал Clopper Pearson можна оцінити аналітично. Припустимо, монета придумана як "успіх" (голови), потрібно вибрати такий, щоθ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

При ці ймовірності і , тому CI Піперсона Піперсона означає, що (і тривіально завжди вірно ), коли . Коли ці ймовірності і , тому CI Clopper Pearson CI означає, що , або коли . Отже, для 95% ДІ ми отримуємо коли , іX=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1θα21α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θ1θα2θ1α2X=0[0.025,1]X=1[0,0.975] коли .X=0

Таким чином, той, хто використовує Clopper Pearson Interval Interval, ніколи не буде обезголовлений. Дотримуючись інтервал, це в основному весь простір параметрів. Але інтервал CP робить це, даючи 100% покриття на нібито 95% інтервал! По суті, частотаністи «обманюють», надаючи 95% -ному довірчому інтервалу більше висвітлення, ніж його / її просили дати (хоча хто б не обдурив у такій ситуації? Якби я був, я б дав цілий [0, 1] інтервал). Якби король попросив точно 95% ІС, цей метод частістів зазнав би невдачі незалежно від того, що насправді сталося (можливо, існує кращий?).

А як з Байєсським інтервалом? (конкретно Байєсівський інтервал найвищої задньої поглинання (HPD))

Оскільки ми апріорі знаємо, що і голови, і хвости можуть підійти, рівномірний вибір є розумним вибором. Це дає задній розподіл . Тепер все, що нам потрібно зробити, це створити інтервал з 95% задньою ймовірністю. Подібно до грушового пільсона CI, розподіл кумулятивного бета тут також аналітичний, так що і встановлення цих значень 0,95 дає коли і коли . Отже два достовірні інтервали є(θ|X)Beta(1+X,2X)Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2θe=0.050.224X=1θe=10.050.776X=0(0,0.776) коли і колиX=0(0.224,1)X=1

Таким чином, байєсівці обезголовлять його за достовірний інтервал HPD у випадку, коли він отримає погану монету, і погана монета вийде з хвостами, які будуть мати шанс .11012+1×1100

По-перше, байєсівський інтервал менший за довірчий інтервал. Інша справа, що байєсівці були б ближче до фактичного рівня покриття, на 95%, ніж частофілістів. Насправді байєсівський близько приблизно наближається до 95%, як можна отримати цю проблему. І всупереч твердженню Кіта, якщо обрана погана монета, 10 байесів із 100 в середньому втратять голову (не всі вони, тому що погана монета повинна підіймати голови за інтервал, щоб не містити ). 0.1

Цікаво, що якщо інтервал CP для 1 спостереження використовувався неодноразово (тому ми маємо N таких інтервалів, кожен заснований на 1 спостереженні), а справжня частка становила що-небудь між та , то охоплення 95% ІС завжди буде 100 %, а не 95%! Це однозначно залежить від справжнього значення параметра! Отже, це принаймні один випадок, коли повторне використання довірчого інтервалу не призводить до бажаного рівня впевненості.0.0250.975

Якщо цитувати справжній 95% довірчий інтервал, то за визначенням повинні бути деякі випадки (тобто хоча б один) спостережуваного інтервалу, які не містять справжнього значення параметра . В іншому випадку, як можна виправдати тег 95%? Чи не було б справедливим чи недійсним називати його інтервалом 90%, 50%, 20% або навіть 0%?

Я не бачу, наскільки задовільним є твердження про те, що "це насправді означає 95% або більше" без додаткового обмеження. Це тому, що очевидним математичним рішенням є весь простір параметрів, а проблема - тривіальна. припустимо, я хочу 50% ІС? якщо він обмежує лише помилкові негативи, то весь простір параметрів є дійсним CI, використовуючи лише цей критерій.

Можливо, кращим критерієм є (і це, на мою думку, імпліцитно визначене Кітом) "якомога ближче до 95%, не знижуючись нижче 95%". Байєсівський інтервал мав би покриття ближче до 95%, ніж частофілістський (хоча і не на багато), і не охоплював би 95% покриття ( покриття, коли , і охоплення, коли ).100%X=0100×1012+9101012+1%>95%X=1

На завершення, здається трохи дивним запитувати інтервал невизначеності, а потім оцінювати цей інтервал, використовуючи справжнє значення, про яке ми були невпевнені. "Справедливіше" порівняння, як для впевненості, так і для достовірних інтервалів, мені здається правдою твердження про невизначеність, даного з інтервалом .


У першому головному абзаці ви ніби плутали та . Звідки береться значення 10 ^ 12 + 1? Що ви маєте на увазі під "обезголовленим" ?? Цей текст виглядає так, що він потребує коректури та перегляду. 1 - αα1α
whuber

α 1 - α1012 - за трильйон справедливих монет, а 1 - для несправедливої ​​монети. І я не переплутав і інтервал Clopper Pearson, перелічений [тут] [1]α1α
ймовірністьлогічний

[Вибачте, помилка] (зафіксовано TeX) - на трильйон справедливих монет, а 1 - на несправедливу монету, одна над цією - приблизно приблизно. до ймовірності наявності «поганої» монети. Обезголовлення - це наслідок надання неправильного довірчого інтервалу. І я не переплутав і аль інтервал Clopper Pearson, вказаний на сторінці вікі (пошуковий інтервал довіри двочленної пропорції). Що відбувається одна частина інтервалу CP - це тавтологія коли одне спостереження. Сторона "перевертається", коли X = 1 до X = 0, тому є і . α 1 - α 1 α1012α1α 1-θθ1α21θθ
ймовірність вірогідного

Ви маєте на увазі відповідь @Keith Winstein?
качан

@whuber, так, я маю на увазі відповідь Кіта Вінстейна.
ймовірністьлогічний

9

Проблема починається з вашого речення:

Приклади, засновані на неправильних попередніх припущеннях, неприйнятні, оскільки вони нічого не говорять про внутрішню послідовність різних підходів.

Так, як ти знаєш, що твій пріоритет правильний?

Візьмемо випадок байєсівського умовиводу у філогенезі. Імовірність принаймні однієї зміни пов'язана з еволюційним часом (довжина гілки t) за формулою

P=1e43ut

при цьому швидкість заміщення u.

Тепер ви хочете скласти модель еволюції, засновану на порівнянні послідовностей ДНК. По суті, ви намагаєтесь оцінити дерево, в якому ви намагаєтесь моделювати кількість змін між послідовностями ДНК якомога ближче. P вище - це шанс хоча б однієї зміни на даній гілці. Еволюційні моделі описують шанси зміни між будь-якими двома нуклеотидами, і з цих еволюційних моделей виводиться функція оцінки або з p як параметр, або з t як параметр.

Ви не маєте розумних знань, і ви вибрали квартиру для p. Це по суті має на увазі експоненціально зменшення до початку t. (Це стає ще більш проблематичним, якщо ви хочете встановити квартиру до t. То, що мається на увазі перед p, сильно залежить від того, де ви скоротите діапазон т.)

Теоретично, t може бути нескінченним, але коли ви допускаєте нескінченний діапазон, площа під його функцією щільності дорівнює також нескінченності, тому вам потрібно визначити точку усікання для попереднього. Тепер, коли ви вибрали достатньо велику точку відсікання, не важко довести, що обидва кінці достовірного інтервалу піднімаються, і в певний момент справжнє значення вже не міститься в достовірному інтервалі. Якщо ви не маєте дуже гарного уявлення про попередні, байєсівські методи не гарантуються рівними або перевершують інші методи.

посилання: Йозеф Фельсенштейн: Підсудні філогенії, глава 18

Зі сторони, мені нудить ця байєська / частота сварка. Вони обидві різні рамки, і це не є абсолютною правдою. Класичні приклади про байєсівські методи незмінно виходять з розрахунку ймовірності, і не один частофіліст не буде їм суперечити. Класичний аргумент проти байєсівських методів незмінно передбачає довільний вибір попереднього. І розумні пріори, безумовно, можливі.

Все це зводиться до правильного використання будь-якого методу в потрібний час. Я бачив дуже мало аргументів / порівнянь, де обидва методи були застосовані правильно. Припущення будь-якого методу дуже недооцінені і занадто часто ігноруються.

EDIT: для уточнення, проблема полягає в тому, що оцінка, заснована на p, відрізняється від оцінки, заснованої на t в байєсівській системі, коли працює з неінформативними пріорами (що в ряді випадків є єдиним можливим рішенням). Це не вірно в рамках ML для філогенетичного умовиводу. Це не питання неправильного попереднього, він притаманний методу.


3
Можна зацікавитись відмінностями баєсівської та частофілістської статистики, не будучи сваркою. Важливо знати недоліки, а також переваги бажаного підходу. Я спеціально виключав пріорів, оскільки це не проблема з рамкою, сама по собі, а лише питання GIGO. Те саме стосується статистики частотних лікарів, наприклад, припускаючи і неправильний параметричний розподіл даних. Це не буде критикою частолістської методології, а саме конкретного методу. До речі, у мене не виникає особливих проблем з неправильними пріорами.
Дікран Марсупіал

3
Перший приклад Джейнеса: Жоден статистик з розумом ніколи не використовуватиме F-тест і Т-тест на цьому наборі даних. Крім цього, він порівнює двоступеневий тест з P (b> a), який не є такою ж перевіреною гіпотезою. Тому його приклад не справедливий, що він, по суті, визнає згодом. Поруч із цим ви не можете порівняти "рамки". Про що ми тоді говоримо? ML, REML, LS, штрафовані методи, ...? інтервали для коефіцієнтів, статистики, прогнозів, ...? Ви також можете запитати, чи лютеранська послуга еквівалентна або перевершує шиїтські послуги. Вони говорять про одного і того ж Бога.
Joris Meys

Не могли б ви уточнити, що ваші дані та які параметри ви б оцінили у вашій моделі? Я трохи збентежений з цього приводу. Крім того, чи можете ви скористатись $$ замість $, щоб зосереджувати формулу? Розмір шрифту зараз дуже малий.

@Srikant: Приклад у книзі Felsensteins ґрунтується на моделі Jukes-Cantor для еволюції ДНК. Дані - це послідовності ДНК. Ви хочете оцінити ймовірність зміни вашої послідовності, яка пов'язана з довжиною вашої гілки на основі згаданої формули. Довжина гілок визначається як час еволюції: чим більший шанс на зміни, тим більше часу проходить між пращуром і поточним станом. Вибачте, але я не можу узагальнити всю теорію, що стоїть за МЛ та байєсовським філогенетичним висновком лише за один пост. Фельсенштейн для цього знадобився пів книги.
Joris Meys

Напевно, я просто хотів, щоб ви пояснили, які змінні у вашому рівнянні були даними, а які - параметром, оскільки це не було зрозуміло з вашої посади, особливо тому, хто, як я, хто є стороннім. Я все ще загублений, але, мабуть, мені потрібно буде прочитати книгу, щоб дізнатися більше.

8

Частотні довірчі інтервали обмежують частоту помилкових позитивних результатів (помилки типу I), і гарантують, що їх охоплення буде обмежено нижче параметром довіри, навіть у гіршому випадку. Інтервали достовірності Байєса не відповідають.

Отже, якщо вам дуже важливо помилкові позитиви, і вам потрібно зв'язати їх, інтервали довіри - це підхід, який ви хочете використовувати.

Наприклад, скажімо, у вас злий король із двором 100 придворних і куртизанок, і він хоче грати з ними жорстоку статистичну гру. У короля є мішок із трильйоном ярмарок, плюс одна несправедлива монета, ймовірність голови якої становить 10%. Він збирається виконати наступну гру. По-перше, він витягне монету рівномірно з мішка рівномірно.

Тоді монета буде передана навколо кімнати зі 100 чоловік, і кожна з них буде змушена приватно експериментувати над нею, і тоді кожна людина заявить про 95-відсотковий інтервал невизначеності щодо того, на що вони думають, що вірогідність головки монети.

Кожен, хто надає інтервал, який представляє помилковий позитив - тобто інтервал, який не покриває справжнє значення ймовірності голів - буде обезголовлений.

Якщо ми хотіли виразити функцію / a posteriori / розподілу ймовірності ваги монети, то, звичайно, це робиться інтервалом достовірності. Відповіддю завжди буде інтервал [0,5, 0,5] незалежно від результату. Навіть якщо ви перевернете нульову голову або одну голову, ви все одно скажете [0,5, 0,5], тому що це чорт набагато більш імовірний, що король намалював справедливу монету, а у вас 1/1024 день отримував десять головок поспіль , чим король намалював несправедливу монету.

Тож це не дуже гарна ідея для придворних та куртизанок! Тому що, коли несправедлива монета буде намальована, вся кімната (усі 100 людей) помиляться, і всі вони будуть обезголовлені.

У цьому світі, де найважливіше - помилкові позитиви, те, що нам потрібно, - це абсолютна гарантія того, що показник помилкових позитивних результатів буде менше 5%, незалежно від того, яка монета виведена. Тоді нам потрібно використовувати довірчий інтервал, як, наприклад, Blyth-Still-Casella або Clopper-Pearson, який працює і забезпечує принаймні 95% покриття, незалежно від справжнього значення параметра, навіть у гіршому випадку . Якщо кожен замість цього використовує, то незалежно від того, яку монету витягуєте, в кінці дня ми можемо гарантувати, що очікувана кількість неправильних людей буде не більше п’яти.

Отже, справа в тому, що якщо ваш критерій вимагає обмеження помилкових позитивних результатів (або, що еквівалентно, гарантує покриття), ви повинні пройти з довірчим інтервалом. Ось що вони роблять. Інтервали достовірності можуть бути більш інтуїтивним способом вираження невпевненості, вони можуть бути досить успішними від частолістського аналізу, але вони не збираються надати гарантовану прив'язку до помилкових позитивів, які ви отримаєте, коли будете просити про це.

(Звичайно, якщо ви також дбаєте про помилкові негативи, вам знадобиться метод, який дає гарантії і на них).


6
Їжа для роздумів, однак конкретний приклад є несправедливим, оскільки частолістський підхід дозволяє розглядати відносні витрати на помилково-позитивні та хибнонегативні витрати, але байєсівський підхід не є. Правильна річ, згідно з теорією рішення Байєса, - це дати інтервал [0,1], оскільки не існує штрафу, пов'язаного з помилковими негативами. Таким чином, у порівнянні рамок, подібних до подібних, жоден із байєсів також не обезголовився. Питання про обмеження помилкових позитивів, хоча дає мені напрямок, в якому потрібно шукати відповідь на виклик Джейнеса.
Дікран Марсупіал

1
Зауважимо також, що якщо вибрана монета перегортається досить часто, то зрештою інтервал довіри Байєса буде зосереджений на довгостроковій частоті головок для конкретної монети, а не на попередній. Якби моє життя залежало від інтервалу, що містить справжню ймовірність голови, я б не перекинув монету один раз!
Дікран Марсупіал

1
Хоча про це трохи більше, цей приклад є недійсним, оскільки критерій, який використовується для вимірювання успіху, не такий, як той, що має на увазі питання, поставлене королем. Проблема полягає в пункті "незалежно від того, яка монета намальована", умовою, яка призначена для подолання будь-якого методу, який використовує попередні знання про рідкість упередженої монети. Як це буває, Bayesains може також отримати межі (наприклад, межі PAC), і якщо б запитали, це було б зроблено, і я підозрюю, що відповідь буде такою ж, як інтервал Clopper-Pearson. Щоб бути справедливим тестом, обидві підходи повинні надавати однакову інформацію.
Дікран Марсупіал

1
Дікран, не повинно бути "байєсів" і "частотантів". Вони не несумісні школи філософії, до яких можна підписатися лише на одну! Вони є математичними інструментами, ефективність яких можна продемонструвати в загальних рамках теорії ймовірностей. Моя думка полягає в тому, що якщо ця вимога є абсолютною межею на помилкових спрацьовуваннях незалежно від істинного значення параметра, ТОЛЬКО довірчий інтервал - це метод, який цього виконує. Звичайно, ми всі погоджуємось з однаковими аксіомами ймовірності, і однакову відповідь можна отримати багатьма способами.
Кіт Уінштейн

1
Поставлене питання є дещо неоднозначним, оскільки в ньому чітко не вказано, яку інформацію мають 100 людей. Чи знають вони розподіл у сумці? бо, якщо вони це роблять, вони "експериментують" марно, можна було б просто дати інтервал або навіть просто два значення і (не дає потрібний покриття). Якщо ми лише знаємо, що є мішок монет, з якого слід витягнути, байєсівський вказав би весь інтервал [0,1], оскільки помилкові позитиви - це все, що має значення в цьому питанні (а розмір інтервалу не має). 0,1 0,5 100% 95%[0.1,0.5]0.10.5100%95%
ймовірністьлогічний

0

чи є приклади, коли частотний довірчий інтервал явно перевершує достовірний інтервал Байєса (відповідно до виклику, який явно робив Джейнс).

Ось приклад : істина дорівнює але попередня сконцентрована приблизно . Я веду статистику клінічного випробування, і вимірює ризик смерті, тому байєсівський результат - це катастрофа, чи не так? Якщо серйозніше, що таке "достовірний інтервал Байєса"? Іншими словами: що обрано попереднім? Можливо, Джейнес запропонував автоматичний спосіб вибору попереднього, я не знаю!10 θ 1 θθ10θ1θ

Бернардо запропонував використовувати "еталон попереднього посилання" як стандарт для наукової комунікації [і навіть "довідковий інтервал" ( Бернардо - об'єктивні достовірні регіони )]. Якщо припустити, що це "баєсівський підхід", тепер питання: коли інтервал перевершує інший? Частичні властивості байєсівського інтервалу не завжди є оптимальними, але також не є байєсівськими властивостями "" "частотистського інтервалу
(до речі, що таке" "інтервал частотистів?)


Я спекулюю, але підозрюю, що ця відповідь обов'язково отримає те саме лікування, що й інші. Хтось просто заперечить, що це питання поганого вибору попередніх, а не певної слабкості байєсівських процедур, яка, на мій погляд, частково намагається ухилитися від вагомої критики.
кардинал

@ коментар кардинала цілком слушний. Попереднє тут відключається на порядок, що робить критику дуже слабкою. Попередня інформація має значення і для відвідувачів; те, що відомо апріорі, має визначати, наприклад, які оцінки та статистичні дані тестів використовуються. Якщо цей вибір базується на інформації, неправильній на порядок, слід очікувати поганих результатів; будучи баєсівським або частолістським, не вступає в це.
гість

Мій "приклад" не був важливою частиною моєї відповіді. Але який хороший вибір попереднього? Неважко уявити попередника, підтримка якого містить справжній параметр, але задній - ні, тож частотний інтервал перевершує?
Стефан Лоран

Кардинал та гість є правильними, моє запитання прямо містило "Приклади, засновані на неправильних попередніх припущеннях, неприйнятні, оскільки вони нічого не говорять про внутрішню послідовність різних підходів". з поважної причини. Тестові дослідження часто можуть базуватися на помилкових припущеннях, а також на байесівських (байєсівська рамка чіткіше висловлює припущення); питання полягає в тому, чи є у рамки слабкі місця. Крім того, якщо справжнє значення було в попередньому, але не в задньому, це означало б, що спостереження виключали можливість істинного значення правильним!
Дікран Марсупіал

1
Можливо, я повинен відредагувати свою відповідь та видалити свій "приклад" - це не є серйозною частиною моєї відповіді. Моя відповідь головним чином стосувалася значення "баєсівського підходу". Як ви називаєте байєсівський підхід? Цей підхід вимагає вибору суб'єктивного попереднього або він використовує автоматичний спосіб вибору неінформативного попереднього? У другому випадку важливо згадати твір Бернардо. По-друге, ви не визначили співвідношення «переваги» між інтервалами: коли ви скажете, що інтервал перевершує інший?
Стефан Лоран
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.