Яка різниця між довірчим інтервалом та достовірним інтервалом?


229

Обмін Йоріса та Сріканта тут змусив мене замислитися (знову), чи мої внутрішні пояснення різниці між довірчими інтервалами та достовірними інтервалами були правильними. Як би ви пояснили різницю?

Відповіді:


313

Я повністю погоджуюся з поясненнями Сріканта. Щоб надати їй більш евристичний виток:

Класичні підходи, як правило, говорять про те, що світ є одним із способів (наприклад, параметр має одне конкретне істинне значення), і намагаються проводити експерименти, результат яких висновок - незалежно від істинного значення параметра - буде правильним принаймні деяким мінімумом ймовірність.

В результаті, щоб висловити невизначеність наших знань після експерименту, частофілістський підхід використовує "довірчий інтервал" - діапазон значень, призначений для включення справжнього значення параметра з деякою мінімальною ймовірністю, скажімо, 95%. Частіст розробить експеримент та процедуру довірчого інтервалу на 95%, щоб з кожних 100 запущених експериментів почати до кінця, як мінімум, 95 з отриманих довірчих інтервалів повинні включати справжнє значення параметра. Інші 5 можуть бути трохи помилковими, або вони можуть бути повною дурницею - формально кажучи, це нормально, що стосується підходу, поки 95 із 100 висновків є правильними. (Звичайно, ми хотіли б, щоб вони були злегка неправильними, а не тотальною дурницею.)

Байєсівські підходи формулюють проблему по-різному. Замість того, щоб казати, що параметр просто має одне (невідоме) справжнє значення, метод Байєса говорить, що значення параметра є фіксованим, але вибрано з деякого розподілу ймовірностей - відомого як попередній розподіл ймовірностей. (Інший спосіб сказати, що перед тим, як проводити будь-які вимірювання, Байєс призначає розподіл ймовірностей, який вони називають станом віри, на те, яке саме справжнє значення параметра має бути.) Це "попереднє" може бути відоме (уявіть, що намагаєтеся щоб оцінити розмір вантажівки, якщо ми знаємо загальний розподіл розмірів вантажівки від DMV) або це може бути припущення, витягнуте з повітря. Байєсівський висновок простіший - ми збираємо деякі дані, а потім обчислюємо ймовірність різних значень параметра GIVEN даних. Цей новий розподіл ймовірностей називають "апостеріорною ймовірністю" або просто "задньою". Байєсівські підходи можуть узагальнити їх невизначеність, надавши діапазон значень на задньому розподілі ймовірностей, що включає 95% ймовірності - це називається "95% інтервалом достовірності".

Байєсівський партизанин може критикувати часто-часто довірчий інтервал: Я РОЗПОВІДАЮ. Ваше правило дозволяє 5 із 100 бути повною дурницею [негативні значення, неможливі значення] до тих пір, поки інші 95 є правильними; це смішно ".

Частістський зусиль може критикувати інтервал довіри Байєса на кшталт цього: "Так що, якщо в цей діапазон буде включено 95% задньої ймовірності? Що робити, якщо справжнє значення, скажімо, 0,37? Якщо воно є, то ваш метод, запустіть почнете закінчувати, БУДУТЬ 75% часу. Ваша відповідь: "Ну добре, це нормально, оскільки згідно з попереднім дуже рідко це значення 0,37", і це може бути так, але я хочу, щоб метод, який працює для будь-якого можливого значення параметра. Мені не байдуже 99 значень параметра, якого НЕ МАЄ; я дбаю про одне справжнє значення, ЯКЕ МАЄ. О, також, до речі, Ваші відповіді лише правильні якщо попереднє правильне. Якщо ви просто витягнете його з повітря, тому що він почуває себе правильно, ви можете піти. "

У певному сенсі обидва ці партизани коректно ставляться до критики методів один одного, але я закликаю вас подумати математично про відмінність - як пояснює Срікант.


Ось розширений приклад з тієї розмови, яка показує різницю саме в дискретному прикладі.

У дитинстві моя мама час від часу дивувала мене, замовляючи доставку поштою баночки з шоколадною стружкою. Компанія, що постачала товари, постачала чотири різних банки з печивом - тип A, тип B, тип C і тип D, і всі вони були на одній вантажівці, і ви ніколи не були впевнені, який тип ви отримаєте. У кожній банці було рівно 100 печива, але особливістю, яка відрізняла різні банки з печивом, було їхнє розподілення шоколадних чіпсів на печиво. Якщо ви потрапили в банку і випадково дістали одне печиво рівномірно, це розподіли ймовірностей, які ви отримаєте на кількість чіпів:

alt текст

Наприклад, у банку для печива типу A є 70 файлів cookie з двома чіпами, і жодне печиво з чотирма чіпами чи більше! На банці з печивом типу D є 70 печива з одним чіпом. Зверніть увагу, як кожен вертикальний стовпець є функцією маси ймовірностей - умовна ймовірність кількості чіпів, які ви отримаєте, враховуючи, що jar = A, або B, або C, або D, і кожен стовпець становить 100.

Я любив грати в гру, як тільки доставчик скинув мою нову банку з печивом. Я витяг би одне одне печиво навмання з банки, порахував фішки на файлі cookie та спробував би висловити свою невпевненість - на рівні 70% - з яких банок це може бути. Таким чином, ідентичність jar (A, B, C або D) є значенням параметра, що оцінюється. Кількість фішок (0, 1, 2, 3 або 4) є результатом або спостереженням або вибіркою.

Спочатку я грав у цю гру, використовуючи частолістський інтервал довіри 70%. Такий інтервал повинен бути впевнений, що незалежно від справжнього значення параметра, тобто незалежно від того, яку банку я печива я отримав, інтервал буде охоплювати це справжнє значення з вірогідністю принаймні 70%.

Інтервал, звичайно, є функцією, яка пов'язує результат (рядок) з набором значень параметра (набір стовпців). Але щоб побудувати довірчий інтервал і гарантувати 70% покриття, нам потрібно працювати «вертикально» - дивлячись по черзі на кожен стовпець і переконуючись, що 70% функції масової ймовірності покрито так, що 70% часу, Ідентифікація стовпця буде частиною результату інтервалу. Пам'ятайте, що саме вертикальні стовпці утворюють pmf

Отже, виконавши цю процедуру, я закінчив такі інтервали:

введіть тут опис зображення

Наприклад, якщо кількість чіпів на файлі cookie, який я малюю, дорівнює 1, мій інтервал довіри буде {B, C, D}. Якщо число дорівнює 4, мій інтервал довіри буде {B, C}. Зауважте, що оскільки кожен стовпець становить 70% або більше, то незалежно від того, у якому стовпчині ми справді знаходимось (незалежно від того, в яку банку потрапив доставчик), інтервал, отриманий в результаті цієї процедури, буде містити правильну банку з принаймні 70% вірогідністю.

Зауважте також, що процедура, яку я дотримувався, будуючи інтервали, мала певний розсуд. У стовпці для типу B я міг би так само легко переконатися, що інтервали, що включають B, будуть 0,1,2,3 замість 1,2,3,4. Це призвело б до 75% покриття банок типу B (12 + 19 + 24 + 20), які все ще відповідають нижній межі 70%.

Моя сестра Баєсія вважала, що цей підхід є божевільним. "Ви повинні розглядати постачальників, як частину системи", - сказала вона. "Давайте розглянемо ідентичність банку як випадкову змінну, і припустимо, що доставчик вибирає серед них рівномірно - це означає, що у нього на вантажівці є всі чотири, і коли він потрапляє до нашого будинку, він вибирає одну навмання, кожен з рівномірна ймовірність ".

"З цим припущенням тепер давайте розглянемо спільні ймовірності всієї події - тип баночки та кількість чіпів, які ви отримуєте з першого файлу cookie", - сказала вона, склавши наступну таблицю:

введіть тут опис зображення

Зауважте, що вся таблиця тепер є функцією маси ймовірностей - це означає, що вся таблиця становить 100%.

- Гаразд, - сказав я, - куди ти з цим попрямуєш?

"Ви дивилися на умовну ймовірність кількості чіпсів, враховуючи банку", - сказав Баєсія. "Це все неправильно! Те, що вас насправді хвилює, - це умовна ймовірність того, яка банка є, враховуючи кількість чіпсів на файлі cookie! Ваш 70% інтервал повинен просто включати в список банки, які в цілому мають 70% ймовірність бути справжня баночка. Хіба це не набагато простіше та інтуїтивніше? "

"Звичайно, але як ми це обчислимо?" Я запитав.

"Скажімо, ми знаємо, що у вас є 3 фішки. Тоді ми можемо проігнорувати всі інші рядки таблиці та просто трактувати цей рядок як функцію маси ймовірностей. Нам потрібно масштабувати ймовірності пропорційно, щоб кожен рядок становив 100 , хоча ". Вона зробила:

введіть тут опис зображення

"Зверніть увагу на те, як кожен рядок зараз є pmf, і становить 100%. Ми відхилили умовну ймовірність від того, з чого ви почали - тепер це ймовірність того, що людина скинув певну банку, враховуючи кількість фішок на перше печиво ».

- Цікаво, - сказав я. "Отже, тепер ми просто обводимо достатньо баночок у кожному ряду, щоб отримати 70% ймовірність?" Ми зробили саме це, зробивши ці інтервали довіри:

введіть тут опис зображення

Кожен інтервал включає набір банок, які, а після , становлять 70% ймовірності бути справжньою банку.

- Ну, тримайся, - сказав я. "Я не переконаний. Давайте поставимо два види інтервалів поруч і порівняємо їх для покриття і, припускаючи, що вантажовідбірник вибирає кожний вид баночки з однаковою ймовірністю, надійністю".

Ось вони:

Інтервали довіри:

введіть тут опис зображення

Інтервали достовірності:

введіть тут опис зображення

"Бачите, наскільки шалені ваші інтервали довіри?" - сказав Баєсія. "У вас навіть немає розумної відповіді, коли ви малюєте печиво з нульовими фішками! Ви просто говорите, що це порожній інтервал. Але це, очевидно, неправильно - це повинен бути один з чотирьох типів банок. Як можна жити Ви самі, вказуючи інтервал в кінці дня, коли Ви знаєте, що інтервал невірний? І дето, коли Ви витягуєте файли cookie з 3 фішками - Ваш інтервал правильний лише 41% часу. Називаючи це впевненістю 70% інтервал - фігня ".

- Ну, ей, - відповів я. "Це правильно 70% часу, незалежно від того, з якої банки скинув доставчик. Це набагато більше, ніж ви можете сказати про свої інтервали довіри. Що робити, якщо баночка типу B? Тоді ваш інтервал буде невірним 80% часу , і виправте лише 20% часу! "

"Це здається великою проблемою", - продовжував я, - тому що ваші помилки будуть співвідноситись з типом баночки. Якщо ви надсилаєте 100 роботів "Баєса", щоб оцінити, який тип вашої банку, кожен робот відбирає одне печиво, ви ти мені кажеш, що в дні типу B ви очікуєте, що 80 роботів отримають неправильну відповідь, кожен з яких> 73% вірить у свій неправильний висновок! Це клопітно, особливо якщо ви хочете, щоб більшість роботів погодилися на правильна відповідь ".

"ПЛЮС ми повинні були зробити таке припущення, що доставчик поводиться рівномірно і підбирає кожен тип баночки навмання", - сказав я. "Звідки це взялося? Що, якщо це неправильно? Ви не розмовляли з ним; ви не брали інтерв'ю з ним. Все ж усі ваші заяви про апостеріорну ймовірність опираються на цю заяву про його поведінку. Мені не довелося робити будь-які подібні припущення, і мій інтервал відповідає його критерію навіть у гіршому випадку ".

"Це правда, що мій інтервал достовірності погано працює на банках типу B", - сказала Баєсія. "Але так що? Банки типу B трапляються лише в 25% часу. Це врівноважується моїм хорошим покриттям банок типу A, C і D. І я ніколи не публікую дурниці".

"Це правда, що мій інтервал довіри погано працює, коли я намалював печиво з нульовими чіпами", - сказав я. "Але так що? Безчисне печиво трапляється, максимум, у 27% випадків у гіршому випадку (баночка типу D). Я можу дозволити собі дати дурниці за цей результат, оскільки НЕ баночка призведе до неправильної відповіді більше 30 % часу ".

"Колона підсумовує значення", - сказав я.

"Ряд підсумовує значення", - сказала Баєсія.

"Я бачу, що ми в глухий кут", - сказав я. "Ми обидва правильно в математичних твердженнях, які ми робимо, але ми не погоджуємось щодо відповідного способу кількісної оцінки невизначеності".

- Це правда, - сказала моя сестра. "Хочете печиво?"


17
Пr[θ0(θ,θ+гθ)|Я]θ0θЯ

1
p(θ)

16
Вибачте, що відроджуєте цей надзвичайно старий пост, але швидке запитання, у своєму дописі в розділі, де частофіліст критикує байєсівський підхід, ви говорите: "Що, якщо справжня цінність, скажімо, 0,37? Якщо це так, то ваш метод, запустіть початок до кінця закінчуватиметься БЕЗПЕЧНО 75% часу ". Як ви отримали ці цифри? як 0,37 відповідає 75% неправильно? Це відключення якоїсь кривої ймовірності? Спасибі
BYS2

1
Класна ілюстрація! Як би коригувались інтервал довіри та достовірності моделі шоколадного чіпса, якщо нам дозволять пробувати з баночки n печива? І чи можемо ми оцінити точність двох підходів під час накопичення даних про відносну частоту. банок, які поставляються? Я думаю, байєсівський підхід дасть кращі прогнози, коли ми досить впевнені в попередньому розподілі (скажімо, після ~ 30 поставок?). Але якщо попередній dbn повинен був різко змінитися (скажімо, новий постачальник повинен взяти на себе роботу), то часто застосовуватиметься перевага.
RobertF

4
@ BYS2, коли автор каже це "What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time", вони просто дають приклади цифр, які вони склали. У цьому конкретному випадку вони мали на увазі деякий попередній розподіл, який мав дуже низьке значення 0,37, з більшою частиною його щільності ймовірностей в інших місцях. І ми припускаємо, що наш приклад розподілу був би дуже поганим, коли справжнє значення параметра дорівнює 0,37, аналогічно тому, як інтервали достовірності Байєсії збивалися з жалю, коли jar трапився типу B.
Гаррет

32

Моє розуміння таке:

Фон

хθхθхf(х|θ)

Проблема умовиводу

θх

Інтервали довіри

θхθθ^

х

Я[лб(х),уб(х)]

P(θI)=0.95

Інтервал, побудований як і вище, називається інтервалом довіри. Оскільки справжнє значення невідоме, але фіксоване, справжнє значення знаходиться або в інтервалі, або поза інтервалом. Тоді довірчий інтервал - це твердження про ймовірність того, що отриманий нами інтервал насправді має значення справжнього параметра. Таким чином, твердження про ймовірність стосується інтервалу (тобто шансів на той інтервал, який має справжнє значення чи ні), а не про розташування справжнього значення параметра.

У цій парадигмі безглуздо говорити про ймовірність того, що справжнє значення менше або більше, ніж якесь значення, оскільки справжнє значення не є випадковою змінною.

Достовірні інтервали

f(θ)

f(θ|)f(θ)f(x|θ)

Потім ми доходимо до точкової оцінки за допомогою заднього розподілу (наприклад, використовуємо середнє значення заднього розподілу). Однак, оскільки за цією парадигмою справжній вектор параметрів є випадковою змінною, ми також хочемо знати ступінь невизначеності, яку маємо в нашій точковій оцінці. Таким чином, ми побудуємо інтервал, такий, що має місце наступне:

P(l(θ)θub(θ))=0.95

Сказане - достовірний інтервал.

Підсумок

Достовірні інтервали фіксують нашу поточну невизначеність у розташуванні значень параметрів і, таким чином, можуть трактуватися як імовірнісне твердження про параметр.

Навпаки, довірчі інтервали фіксують невизначеність щодо отриманого нами інтервалу (тобто, містить він справжнє значення чи ні). Таким чином, їх не можна інтерпретувати як імовірнісне твердження про справжні значення параметрів.


2
95% довірчий інтервал за визначенням охоплює справжнє значення параметра в 95% випадків, як ви правильно вказали. Таким чином, ймовірність того, що ваш інтервал охопить справжнє значення параметра, становить 95%. Іноді ви можете щось сказати про шанс того, що параметр більший або менший, ніж будь-який з меж, виходячи з припущень, які ви робите при побудові інтервалу (досить часто нормальний розподіл вашої оцінки). Ви можете обчислити P (theta> ub) або P (ub <theta). Заява справді стосується межі, але ви можете це зробити.
Йоріс Мейс

9
Joris, я не можу погодитися. Так, для будь-якого значення параметра буде> 95% ймовірність, що отриманий інтервал покриє справжнє значення. Це не означає, що після конкретного спостереження та обчислення інтервалу, все ще залишається умовна ймовірність 95%, враховуючи дані, що ТОТИ інтервал покриває справжнє значення. Як я вже говорив нижче, формально було б цілком прийнятно інтервал довіри виплюнути [0, 1] 95% часу, а порожній встановити інші 5%. У випадках, коли ви отримали порожній набір як інтервал, немає 95% ймовірності, що справжнє значення знаходиться в межах!
Кіт Уінштейн

@ Кіт: Я бачу вашу думку, хоча порожній набір не є інтервалом за визначенням. Вірогідність довірчого інтервалу також не залежить від даних, навпаки. Кожен довірчий інтервал походить від іншої випадкової вибірки, тому ймовірність того, що ваш зразок буде складений таким, що 95% ІС, на якому він заснований, не покриває справжнє значення параметра, становить лише 5%, незалежно від даних.
Йоріс Мейс

1
Joris, я використовував "data" як синонім "sample", тому я думаю, що ми згодні. Моя думка полягає в тому, що після взяття вибірки можна опинитися в ситуаціях, де ви можете з абсолютною впевненістю довести, що ваш інтервал невірний - що він не покриває справжнє значення. Це не означає, що це не допустимий 95% довірчий інтервал. Тому ви не можете сказати, що параметр достовірності (95%) говорить вам про ймовірність покриття певного інтервалу після того, як ви провели експеримент і отримали інтервал. Про це може говорити лише ймовірність апостеріорії, повідомлена попередником.
Кіт Уінштейн

4
θ θθ θ θf(θ)Pr(θ is in the interval (θ,θ+dθ)|I)=f(θ)dθХ

13

Я не погоджуюся з відповіддю Шріканта щодо одного фундаментального моменту. Срікант заявив про це:

"Проблема з висновками: Ваша проблема з висновками: Які значення θ є розумними з огляду на спостережувані дані x?"

Насправді це ПРОБЛЕМА ІНФЕРЕНЦІЇ БАЙЕЗ. У статистиці Байєса ми прагнемо обчислити P (θ | x), тобто ймовірність значення параметра з урахуванням спостережуваних даних (вибірки). КРЕДИЧНИЙ ІНТЕРВАЛ - це інтервал θ, який має 95% шансів (або іншого) містити справжнє значення θ, враховуючи кілька припущень, що лежать в основі проблеми.

ФРЕКВЕНТИСТИЧНА ІНФЕРЕНЦІЙНА ПРОБЛЕМА така:

Чи обгрунтовані дані x обґрунтовані за даними гіпотезованих значень θ?

У частотистській статистиці ми прагнемо обчислити P (x | θ), тобто ймовірність спостереження за даними (вибіркою) з урахуванням гіпотезованих значень параметрів. ІНТЕРВАЛ ДОВІРНОСТІ (можливо, неправильне значення) трактується як: якщо експеримент, який генерував випадкову вибірку x, повторювався багато разів, 95% (або інші) таких інтервалів, побудованих із цих випадкових вибірок, містили б справжнє значення параметра.

Возитися з головою? Ось проблема з частою статистикою, і головне, що баєсівська статистика для цього працює.

Як вказує Сікрант, P (θ | x) і P (x | θ) пов'язані так:

P (θ | x) = P (θ) P (x | θ)

Де P (θ) - наша попередня ймовірність; P (x | θ) - вірогідність даних, що обумовлюються цим попереднім, а P (θ | x) - задньою ймовірністю. Попередній P (θ) є по суті суб'єктивним, але це ціна знань про Всесвіт - у дуже глибокому розумінні.

Інші частини відповідей Сікранта та Кіта є чудовими.


Технічно ви правильні, але зауважте, що довірчий інтервал дає набір значень параметрів, щодо яких нульова гіпотеза відповідає дійсності. Таким чином, "чи спостережувані дані x є розумними, враховуючи нашу гіпотезу про тету?" можна переформулювати як "Які справжні значення тети були б сумісною гіпотезою з огляду на спостережувані дані х?" Зауважимо, що перефразоване питання не обов'язково означає, що тета вважається випадковою змінною. Переформульоване запитання використовує той факт, що ми виконуємо тести гіпотез, перевіряючи, чи падає гіпотезоване значення в довірчий інтервал.

@svadali - довірчі інтервали оцінюють дані для фіксованої гіпотези. Таким чином, змінюючи "фіксовану" частину рівняння, якщо ви не зважаєте на ймовірність гіпотези до спостереження за вашими даними, то ви неодмінно виходите з невідповідностями та неузгодженими результатами. Умовна ймовірність не "обмежується" при зміні умов (наприклад, змінивши умови, ви можете змінити умовну ймовірність від 0 до 1). Попередня ймовірність враховує цю свавілля. Умова на X робиться тому, що ми впевнені, що X сталося - ми спостерігали X!
ймовірністьлогічний

13

Надані раніше відповіді дуже корисні та детальні. Ось мої $ 0,25.

Інтервал довіри (CI) - це концепція, заснована на класичному визначенні ймовірності (його також називають «частотним визначенням»), що ймовірність є подібно пропорції і заснована на аксіоматичній системі Колмогрова (та інших).

Достовірними інтервалами (найвища задня щільність, HPD) можна вважати своє коріння в теорії рішень, заснованій на роботах Вальда та де Фінетті (і багато інших розширених).

Оскільки люди в цій темі зробили чудову роботу, наводячи приклади та різницю гіпотез у справі Байєса і частоліста, я просто наголошу на кількох важливих моментах.

  1. КІ грунтуються на тому, що висновок ОБОВ'ЯЗКОВО робити на всіх можливих повторах експерименту, які можна побачити, а НЕ тільки на спостережуваних даних, коли як ВПД базуються ВІДПОВІДНО на спостережуваних даних (і, очевидно, наші попередні припущення).

  2. θ

  3. Оскільки КІ не обумовлюють спостережувані дані (їх також називають "Принцип умовності" CP), можуть бути парадоксальні приклади. Фішер був великим прихильником СР, а також знайшов безліч парадоксальних прикладів, коли цього НЕ дотримувались (як у випадку з ІП). Це причина, чому він використовував p-значення для висновку, на відміну від CI. На його думку, p-значення базувалися на спостережуваних даних (багато чого можна сказати про p-значеннях, але це не фокус тут). Два дуже відомих парадоксальних приклади: (4 і 5)

  4. ХiN(мк,σ2)i{1,,н}мкн0,5σ2+0,0005σ2н=10000,001σ20,5σ2+0,0005σ20,001σ2н=1000нмкσнн

  5. нн=2Х1,Х2U(θ-1/2,θ+1/2)θХ1-θU(-1/2,1/2)12(Х1+Х2)х¯-θθc>0Пробθ(-c<=х¯-θ<=c)=1-α(99%)(х¯-c,х¯+c)θх¯θθХ1=0Х2=1|Х1-Х2|=1(Х1,Х2)θПроб(|Х1-Х2|=1)=0|Х1-Х2||Х1-Х2||Х1-Х2|

  6. Х2-Х1Х2-Х1θХ2-Х1θХ2-Х1θ Фідуціальні умовиводи(також його називають найбільшою невдачею, пор. Забел, стат. наук. 1992), але він не став популярним через відсутність загальності та гнучкості. Фішер намагався знайти спосіб, який відрізняється як від класичної статистики (школи Неймана), так і від байезійської школи (звідси відома приказка Савже: «Фішер хотів зробити байєсівський омлет (тобто, використовуючи CP), не розбиваючи байєсівські яйця») . Фольклор (немає доказів) говорить: Фішер у своїх дискусіях напав на Неймана (для помилок I та II типу та CI), назвавши його хлопцем з Контролю якості, а не Вченим , оскільки методи Неймана не обумовлювали спостережувані дані, а при всіх можливих повторах.

  7. Статистики також хочуть використовувати Принцип достатності (SP) крім CP. Але SP і CP разом мають на увазі Принцип ймовірності (LP) (пор. Birnbaum, JASA, 1962), тобто з урахуванням CP та SP, треба ігнорувати вибірковий простір і дивитися лише на функцію ймовірності. Таким чином, нам потрібно лише дивитися на дані та НЕ на весь пробний простір (дивлячись на весь пробний простір подібним до повторного відбору вибірки). Це призвело до такої концепції, як «Спостережена інформація про Фішера» (пор. Efron and Hinkley, AS, 1978), яка вимірює інформацію про ці дані з точки зору частості. Кількість інформації в даних - байєсівська концепція (і, отже, пов'язана з HPD), а не CI.

  8. Кіфер проводив деякі основні роботи над CI в кінці 1970-х, але його розширення не стали популярними. Хорошим джерелом посилань є Бергер ("Чи могли Фішер, Нейман та Джеффрі погодитися щодо тестування гіпотез", Stat Sci, 2003).


Підсумок:

(Як вказували Срікант та інші)
КІ не можна трактувати як вірогідність, і вони нічого не розповідають про невідомий параметр НАДАЄ спостережувані дані. КІ - це твердження про повторні експерименти.

ВПР - це ймовірнісні інтервали, засновані на задньому розподілі невідомого параметра, і мають імовірнісну інтерпретацію на основі даних даних.

Властивість частота (повторна вибірка) є бажаною властивістю, і HPD (з відповідними пріорами) та ІС мають їх обидва. ВПЛ обумовлюють дані дані також у відповідях на питання про невідомий параметр

(Об'єктивна НЕ Суб'єктивна) Байєси погоджуються з класичними статистиками про те, що існує єдине значення ІСТИННОГО параметра. Однак вони обидва відрізняються тим, як роблять висновок про цей справжній параметр.

Байєсійські ВПЛ дають нам хороший спосіб обумовити дані, але якщо вони не згодні з частотистськими властивостями ІП, вони не дуже корисні (аналогія: людина, яка використовує ВПР (з деякими попередніми) без хорошого частолістського властивості, пов'язана бути приреченим, як тесляр, який піклується про молоток і забуває шуруповерта)

Нарешті, я бачив людей у ​​цій темі (коментарі доктора Іоріса: "... припущення передбачають неоднозначне попереднє, тобто повне відсутність знань про справжній параметр."), Що говорять про недостатнє знання про справжній параметр еквівалентно використанню дифузного попереднього. Я НЕ знаю, чи можу я погодитися з твердженням (доктор Кіт погоджується зі мною). Наприклад, у випадку базових лінійних моделей деякі розподіли можна отримати, використовуючи рівномірний попередній (який деякі люди називають дифузним), АЛЕ НЕ означає, що рівномірний розподіл може розглядатися як низький ПРІОР ІНФОРМАЦІЙНОГО ПРІОРУ. Взагалі, попередній неінформаційний (цільовий) не означає, що він має низьку інформацію про параметр.



Примітка:Багато з цих пунктів базуються на лекціях одного з видатних баязів. Я ще студент і міг би його неправильно зрозуміти. Прийміть мої вибачення заздалегідь.


"Частиця втрачається", дивлячись на найбільш голосову відповідь, я припускаю, що це залежить від функції корисності (наприклад, якщо не відбувається оптимізація жалю). Інтуїтивно це може залежати і від здатності визначати попередню функцію ...
Абель Моліна

4
"частоліст МОЖЕ втратити" ... * обумовлений наявністю відповідного попереднього * (що, загалом, не так просто). Ідеальний приклад: азартні ігри на 99% впевнені, що їх удача цього разу зміниться. Ті, хто включив це до свого аналізу рішень, як правило, не дуже добре в довгостроковій перспективі.
Кліф АВ

1
Я не думаю, що вам слід скорочувати довірчі інтервали як CI у відповідь про відмінність між достовірними інтервалами та довірчими інтервалами.
Х'ю,

10

Завжди весело займатися трохи філософією. Мені дуже подобається відповідь Кіта, однак я б сказав, що він займає позицію "містер забурливий Баєсія". Погане покриття, коли тип B і тип C може виникнути лише в тому випадку, якщо він застосовує однаковий розподіл ймовірностей під час кожного випробування і відмовляється оновити його (її) до цього.

Це ви можете побачити досить чітко, оскільки банки типу A і типу D роблять так "визначені прогнози" (для 0-1 і 2-3 фішок відповідно), тоді як банки типу B і C в основному дають рівномірний розподіл фішок. Отже, при повтореннях експерименту з якоюсь фіксованою «справжньою баночкою» (або якщо ми відібрали пробне печиво), рівномірний розподіл чіпсів надасть свідчення для банок типу B або C.

КL(Б||С)0,006КL(С||Б)12×0,006=0,11 . Таким чином, ми не можемо очікувати, що ми зможемо проводити дискримінацію на основі однієї вибірки (для звичайного випадку нам потрібно приблизно 320 розмірів вибірки, щоб виявити цю різницю на рівні 5% значущості). Таким чином, ми можемо обгрунтовано згортати тип B і тип C разом до тих пір, поки не будемо мати достатньо великого зразка.

Що тепер відбувається з цими достовірними інтервалами? Зараз ми фактично маємо 100% покриття "B або C"! А як щодо частофілістських інтервалів? Покриття не змінюється, оскільки всі інтервали містять і B, і C, або жоден, тому воно все ще піддається критиці у відповіді Кіта - 59% та 0% за 3 та 0 фішки, що спостерігаються.

(0+99+99+59+99)/5=71.2(98+60+66+97)/4=80.3

Ще один момент, який я хотів би підкреслити, полягає в тому, що байєсівський не говорить про те, що "параметр є випадковим" шляхом призначення розподілу ймовірностей. Для байєсівського (ну, принаймні, для мене все-таки) розподіл ймовірностей - це опис того, що відомо про цей параметр. Поняття «випадковість» насправді не існує в баєсівській теорії, лише поняття «знати» і «не знати». "Знання" переходять в умови, а "невідомі" - це те, за що ми обчислюємо ймовірності, якщо їх цікавлять, і маргіналізуємо їх над неприємностями. Отже, достовірний інтервал описує те, що відомо про фіксований параметр, усереднюючи те, що про нього не відомо. Тож якби ми зайняли позицію людини, яка запакувала банку з печивом і знала, що це тип А, їх інтервал достовірності був би просто [A], незалежно від вибірки, і незалежно від того, скільки зразків було взято. І вони були б на 100% точні!

Інтервал довіри базується на "випадковості" або варіації, що існує в різних можливих вибірках. Тому вони враховують єдину зміну, яку вони враховують. Таким чином, інтервал довіри не змінюється для людини, яка запакувала банку з печивом, і нове, що це було тип А. Отже, якби ви витягли печиво з 1 фішкою з баночки типу A, частофіліст стверджував би з 70% впевненістю, що тип був не А, хоча вони знають, що баночка типу А! (якщо вони підтримували свою ідеологію та ігнорували здоровий глузд). Щоб побачити, що це так, зауважте, що ніщо в цій ситуації не змінило розподілу вибірки - ми просто взяли перспективу іншої людини з інформацією про параметр, що базується на "не даних".

Інтервали довіри змінюватимуться лише тоді, коли зміниться даних або зміниться модель / розподіл вибірки. Інтервали достовірності можуть змінюватися, якщо враховувати іншу відповідну інформацію.

Зауважте, що ця шалена поведінка, безумовно, не є тим, що насправді зробив би прихильник інтервалів довіри; але це демонструє слабкість у філософії, що лежить в основі методу в конкретному випадку. Інтервали довіри спрацьовують найкраще, коли ви мало знаєте про параметр, що перевищує інформацію, що міститься в наборі даних. Крім того, інтервали достовірності не зможуть значно покращитись на довірчих інтервалах, якщо не буде попередньої інформації, яку довірчий інтервал не можна врахувати, або важко знайти достатню та допоміжну статистику.


мммм

м

Так, у ліміті. Тоді для одного чи лише декількох зразків КІ нічого не означає, правда? Тоді який сенс обчислювати ІС, якщо у мене немає тонни зразків?
авокадо

3
@loganecolss - тому я баєць.
ймовірністьлогічний

2
@nazka - начебто. Я б сказав, що завжди краще використовувати байєсівський підхід, незалежно від того, скільки у вас є даних. Якщо це можна добре визначити за допомогою частотистської процедури, тоді використовуйте це. Байезіан не є синонімом повільного.
ймовірністьіслогічного

6

Як я це розумію: достовірний інтервал - це виклад діапазону значень для статистики, що цікавить, які залишаються правдоподібними, враховуючи конкретний зразок даних, який ми насправді спостерігали. Інтервал довіри - це твердження про частоту, з якою справжнє значення лежить в довірчому інтервалі, коли експеримент повторюється велика кількість разів, кожен раз з різною вибіркою даних із однієї базової сукупності.

Зазвичай питання, на яке ми хочемо відповісти, - "які значення статистики відповідають спостережуваним даним", і достовірний інтервал дає пряму відповідь на це питання - справжнє значення статистики лежить у 95% достовірному інтервалі з вірогідністю 95 %. Інтервал довіри не дає прямої відповіді на це питання; неправильно стверджувати, що ймовірність того, що справжнє значення статистики лежить у межах 95% довірчого інтервалу, становить 95% (якщо це не збігається з достовірним інтервалом). Однак це дуже поширене неправильне трактування частолістського інтервалу довіри, оскільки саме тлумачення було б прямою відповіддю на питання.

Доповідь Джейна, яку я обговорюю в іншому питанні, дає хороший приклад цього (приклад №5), чи будується ідеально правильний інтервал довіри, де конкретний зразок даних, на якому він заснований, виключає будь-яку можливість справжнього значення статистичного буття в 95% довірчому інтервалі! Це лише проблема, якщо довірчий інтервал неправильно трактується як відстеження правдоподібних значень статистики на основі конкретного зразка, який ми спостерігали.

Зрештою, питання про «коней на курси», і який інтервал найкраще залежить від питання, на яке ви хочете відповісти - просто виберіть метод, який безпосередньо відповідає на це питання.

Я підозрюю, що довірчі інтервали є більш корисними при аналізі [дезінфікованих] повторюваних експериментів (оскільки це лише припущення, що лежить в основі довірчого інтервалу), а достовірні інтервали краще при аналізі даних спостережень, але це лише думка (я використовую обидва види інтервалів у моя власна робота, але я не описував би себе як експерта).


6
Проблема з довірчими інтервалами в повторних експериментах полягає в тому, що для того, щоб вони працювали, умови повторюваного експерименту повинні залишатися однаковими (і хто в це вірить?), Тоді як байєсівський інтервал (якщо його правильно використовувати) умовами дані, що спостерігаються, і, таким чином, передбачає зміни, які відбуваються в реальному світі (за допомогою даних). Я думаю, що правила кондиціонування байєсівської статистики роблять так важко перевершити (я думаю, що це неможливо: можна досягти лише еквівалентності), а автоматичні машини, які вони досягають цього, роблять це таким струнким.
ймовірністьлогічний

3

П(θСЯ)

Так, так, ви можете сказати "Якщо ви повторите експеримент багато разів, приблизно 95% із 95% ІС покриють справжній параметр". Хоча в Bayesian ви можете сказати, що "справжня цінність статистики лежить у 95% достовірному інтервалі з вірогідністю 95%", однак ця 95% вірогідність (у Байесія) сама по собі є лише оцінкою. (Пам’ятайте, що він заснований на розподілі умов, наданих цим конкретними даними, а не розподілу вибірки). Цей оцінювач повинен мати випадкову помилку через випадкову вибірку.

Байесівські намагаються уникати проблеми помилки I типу. Баєсійські завжди говорять, що не має сенсу говорити про помилку I типу в байєсівській. Це не зовсім вірно. Статистики завжди хочуть виміряти можливість чи помилку, що "Ваші дані пропонують вам прийняти рішення, але населення пропонує інше". Це щось, на що Баєсій не може відповісти (тут деталі опущені). На жаль, це може бути найголовніше, на що повинен відповісти статистик. Статистики не просто пропонують рішення. Статистики також повинні мати можливість вирішити, наскільки рішення може піти не так.

Я повинен винайти наступну таблицю та терміни, щоб пояснити поняття. Сподіваюсь, це може допомогти пояснити різницю Інтервалу впевненості та Надійного набору.

П(θ0|Dатан)θ0П(θ0)П(Dатан;θ)θ^П(θ^н;θ)нП(Dатан|θ)П(Dатан;θ)П(θ^н;θ)П(θ0|Dатан)

Інтервал впевненості проти достовірного набору

"???????" пояснює, чому ми не в змозі оцінити помилку типу I (або щось подібне) в байєсівській.

Також врахуйте, що достовірні набори можуть використовуватися для наближення інтервалів довіри за певних обставин. Однак це лише математичне наближення. Інтерпретація повинна йти з частотистською. Байєсівська інтерпретація в цьому випадку вже не працює.


П(х|θ)

Я згоден з висновком, зробленим Дікраном Марсупіалом . Якщо ви рецензент FDA, ви завжди хочете знати можливість схвалення заявки на наркотики, але препарат насправді не є ефективним. Це відповідь, яку баєсійський не може надати, принаймні у класичному / типовому байєсівському.


3

Загальна та послідовна довіра та надійні регіони. http://dx.doi.org/10.6084/m9.figshare.1528163 з кодом за адресою http://dx.doi.org/10.6084/m9.figshare.1528187

Надає опис достовірних інтервалів та довірчих інтервалів для вибору набору разом із загальним кодом R для обчислення як заданої функції ймовірності, так і деяких спостережуваних даних. Далі він пропонує тестову статистику, яка дає достовірні та достовірні інтервали оптимального розміру, які відповідають один одному.

Коротше кажучи, уникаючи формул. Байєсівський достовірний інтервал базується на ймовірності параметрів, заданих даними . Він збирає параметри, які мають високу ймовірність, у достовірний набір / інтервал. 95% достовірний інтервал містить параметри, які разом мають ймовірність 0,95 за даними.

Інтервал частоти довіри базується на ймовірності даних, заданих деякими параметрами . Для кожного (можливо, нескінченно багато) параметра, він спочатку генерує набір даних, які, ймовірно, будуть спостерігатися з урахуванням цього параметра. Потім він перевіряє кожен параметр, чи містять вибрані дані з високою ймовірністю спостережувані дані. Якщо дані з високою ймовірністю містять спостережувані дані, відповідний параметр додається до довірчого інтервалу. Таким чином, довірчий інтервал - це набір параметрів, для яких ми не можемо виключити можливість, що параметр генерував дані. Це дає таке правило, що, якщо застосовувати повторно до подібних проблем, 95% довірчий інтервал буде містити справжнє значення параметра в 95% випадків.

95% достовірний набір і 95% достовірність встановлені для прикладу негативного біноміального розподілу 95% достовірний набір і 95% впевненість набір для негативного розподілу біномів


Опис довірчих інтервалів невірно. "95%" походить від ймовірності того, що вибірка з сукупності виробить інтервал, який містить справжнє значення параметра.
jlimahaverford

@jlimahaverford - Опис правильний, як і ваш. Щоб зробити посилання на те, що ви описуєте, я додав "Це дає таке правило, що, якщо застосовувати повторно до подібних проблем, 95% достовірний інтервал буде містити справжнє значення параметра в 95% випадків".
користувач36160

1
Я не говорив про ваш опис достовірних інтервалів, я говорив про довірчі інтервали. Зараз я помічаю, що посеред вашого абзацу про довірчі інтервали ви знову починаєте говорити про достовірні, і я думаю, що це помилка. Важлива ідея така: "Якби це було справжнє значення параметра, яка ймовірність, що я намалюю зразок цієї крайності або більше. Якщо відповідь більша за 5%, це в інтервалі довіри".
jlimahaverford

@jlimahaverford - погоджуюсь і виправлено - спасибі.
користувач36160

хм, я не бачу, щоб це було виправлено.
jlimahaverford

1

Це більше коментарів, але занадто довго. У наступній роботі: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford має такий цікавий коментар:

Поки всі ці дійсно захоплюючі використання використовували статистичні дані, більшість самих статистиків на чолі з сером Р.А. Фішером пов'язували руки за спиною, наполягаючи на тому, що статистику не можна використовувати в будь-яких, але повністю відтворюваних ситуаціях, а потім використовувати лише емпіричні дані. Це так звана "частістська" школа, яка вела боротьбу з байєсівською школою, яка вважала, що пріори можна використовувати, а використання статистичних висновків значно розширилося. Цей підхід заперечує, що статистичний висновок може мати щось спільне з реальною думкою, оскільки реальні ситуації завжди поховані в контекстних змінних і не можуть бути повторені. На щастя, байєсівська школа повністю не загинула, продовжуючи її Дефінетті, Е.Т. Джейнес, і інші.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.