Чи корисні інтервали довіри?


11

У частотистській статистиці 95% довірчий інтервал - це процедура, що виробляє інтервал, яка, якщо повторюватись нескінченну кількість разів, містила б справжній параметр 95% часу. Чому це корисно?

Інтервали довіри часто неправильно розуміються. Вони не є інтервалом, у якому ми можемо бути на 95% впевнені, що параметр знаходиться (якщо ви не використовуєте аналогічний інтервал достовірності Байєса). Інтервали впевненості відчувають себе принадами і перемикаються на мене.

Я можу придумати один із випадків використання - надати діапазон значень, для якого ми не могли відкинути нульову гіпотезу про те, що параметр - це значення. Чи б р-значення не надавали цю інформацію, але краще? Не будучи таким оманливим?

Якщо коротко: навіщо нам потрібні довірчі інтервали? Чим вони при правильному тлумаченні корисні?



Інтервал достовірності Байєса - це не інтервал, у якому ми можемо бути на 95% впевнені, що параметр є.
Секст

@MartijnWeterings: якщо ви не впевнені на 100% від свого попереднього.
Сіань

@ Xi'an, який працює, коли параметр на 100% певний, його можна вважати випадковою змінною, а експеримент - це як вибірка з спільного розподілу частоти P ( θ , x ) , тобто ви використовуєте правило Байєса як: P ( θ | x ) = P ( θ , x ) / P ( x ) без явного "попереднього". Це не те саме для параметра, який вважається фіксованим. Тоді задні переконання вимагатимуть також "оновлення" старого спільного розподілу частот X і θθP(θ,x)P(θ|x)=P(θ,x)/P(x)Xθ. Трохи абсурдно стверджувати, що оновлення "попередніх переконань" було на 100% впевненим.
Секст

Відповіді:


10

1αθL(x)U(x)

P(L(X)θU(X)|θ)=1αfor all θΘ.

Вихід за межі частофілістської парадигми та маргіналізація над для будь-якого попереднього розподілу дає відповідний (слабший) граничний результат ймовірності:θ

P(L(X)θU(X))=1α.

Як тільки ми фіксуємо межі довірчого інтервалу, фіксуючи дані до , ми більше не звертаємось до цього твердження про ймовірність, оскільки тепер ми виправили ці дані. Однак якщо довірчий інтервал трактується як випадковий інтервал, то ми дійсно можемо зробити це твердження про ймовірність --- тобто, при ймовірності параметр потрапить в інтервал (випадковий).X=x 1 - α θ1αθ

У частотній статистиці заяви про ймовірність - це твердження про відносні частоти протягом нескінченно повторних випробувань. Але це справедливо для кожного твердження про ймовірність у парадигмі частості, тому, якщо ваше заперечення стосується тверджень щодо відносної частоти, це не заперечення, характерне для довірчих інтервалів. Якщо ми виходимо за межі частофілістської парадигми, то можна справедливо сказати, що довірчий інтервал містить цільовий параметр з бажаною ймовірністю, доки ми робимо це твердження про ймовірність незначно (тобто не обумовлене даними), і таким чином ми ставимося до довірчого інтервалу у його випадковому розумінні.

Я не знаю про інших, але мені це здається досить потужним результатом ймовірності та розумним обґрунтуванням такої форми інтервалу. Я більше частковий до байєсівських методів, але ймовірність результатів, що підтримують довірчі інтервали (у їх випадковому розумінні), є потужними результатами, на які не варто нюхати.


1
"Вихід за межі частотистської парадигми" чи не в цьому саме проблема? Загалом ми хочемо інтервал, який містить справжнє значення параметра, що цікавить, з певною вірогідністю. Жоден частолістський аналіз не може дати нам цього, і неявна повторна інтерпретація його як байєсівський аналіз призводить до непорозумінь. Краще відповісти на питання безпосередньо через достовірний інтервал Байєса. Існують способи використання довірчих інтервалів, коли ви неодноразово виконуєте «експерименти», наприклад, контроль якості.
Dikran Marsupial

Справа не в тому, що неявно переосмислюється як байєсівська (остання за умови, щоб дані отримали задню частину). Відповідь - лише показ ОП, що ми можемо зробити корисні твердження про ймовірність щодо довірчого інтервалу. Що стосується більш загальних заперечень проти частотистської парадигми, то це добре і добре, але вони не є запереченнями, характерними для інтервалів довіри.
Бен -

1
Як видно з вищенаведених тверджень про ймовірність, ми можемо гарантувати, що CI містить параметр з деякою ймовірністю, якщо ми розглянемо це апріорі .
Бен -

1
Якщо ви вийшли з парадигми частолістів, але не переходите до байєсівської системи, то яка вона? Я не висловлював заперечення проти частотизму, я вважаю, що ви повинні використовувати рамки, які найбільш прямо відповідають на питання, яке ви насправді хочете поставити. Впевненість і надійні інтервали відповідають на різні запитання.
Dikran Marsupial

1
@Dikran: Заява про ймовірність стоїть як написана і є чисто математичним твердженням. Я дійсно не бачу, як ви можете розумно заперечувати проти цього.
Бен -

5

Я згоден з вищевикладеним @Ben, і я думав, що надам простий приклад того, де баєсийський та інтервальний частотні інтервали матимуть цінність за тих же обставин.

Уявіть собі фабрику з паралельними складальними лініями. Зупинити лінійку дорого, і в той же час вони хочуть виробляти якісну продукцію. Вони з часом стурбовані як помилковими позитивами, так і помилковими негативами. Для фабрики це процес усереднення: важлива як потужність, так і гарантований захист від помилкових позитивних результатів. Інтервали довіри, а також інтервали допуску залежать від фабрики. Тим не менш, машини вийдуть з вирівнювання, тобто , і механізм виявлення буде спостерігати помилкові події. Середній результат має значення, тоді як конкретний результат є оперативною деталлю.θΘ

З іншого боку, це один клієнт, який купує окремий товар або одну партію продукції. Їх не хвилюють властивості повторення конвеєра. Вони дбають про той товар, який вони придбали. Уявімо, що замовником є ​​NASA, і їм потрібен продукт, щоб відповідати специфікації, скажімо Їх не хвилює якість деталей, які вони не придбали. Їм потрібен байєсівський інтервал певної форми. Крім того, один провал може вбити багатьох космонавтів і коштувати мільярди доларів. Вони повинні знати, що кожна придбана деталь відповідає технічним умовам. Усереднення було б смертельним. Для ракети "Сатурн V" один відсоток дефекту мав би на увазі 10 000 несправних деталей під час польотів "Аполлон". Вони вимагали 0% дефектів для всіх місій.γΓ.

Ви турбуєтесь про наявність довірчого інтервалу, коли ви працюєте у приміщенні зразка, як це робить фабрика. Це створює пробний простір. Ви турбуєтесь про надійні інтервали, коли працюєте в просторі параметрів, як це робив клієнт. Якщо вам не байдуже спостереження поза вашими, значить, ви баєсієць. Якщо ви дбаєте про зразки, які не були помічені, але їх можна було побачити, то ви часто лікар.

Вас турбує довгострокове усереднення чи конкретна подія?


Чи насправді НАСА купує деталі на основі байєсівських інтервалів? Я розумію вашу думку, але чи справді вони це роблять?
Аксакал

@Aksakal я не знаю. Юран, звичайно, написав чудову роботу щодо забезпечення якості в НАСА, але я не можу згадати взагалі, чи обговорювався процес тестування, так як минуло десятиліття з моменту його читання. Я знаю, що У. Едвардс Демінг виступав проти довірчих інтервалів на користь достовірних інтервалів, але, знову ж таки, це не стосується безпосередньо. Я здогадуюсь, і я знаю людей, які знали б, але наразі це незручно запитати, - чи застосовують методи частості, тому що саме так навчаються більшість людей. Ви використовуєте молоток, який у вас є.
Дейв Харріс

Це, правда, "молоток"? Може, це має щось спільне з тим, як справи в інженерії?
Аксакал

@Aksakal Я не кваліфікований, щоб думати з цього приводу.
Дейв Харріс

Скажімо, компанія виготовляє частин, з випробуваним складовою гіпотезою рівня ви перевіряєте їх на помилки: з них проходять без помилок, і з них виходить з ладу. Ви можете дати NASA обґрунтовану гарантію. Максимальна кількість продуктів, які можуть випадково пройти тест (помилково вважається без помилок) - . Знаючи, що ви продали предметів, ви можете обчислити максимальну ймовірність того, що продана частина насправді не відповідає альтернативній гіпотезі . α H 0 : γ > Γ x y n α x γ ΓnαH0:γ>ΓxynαxγΓ
Секст

4

Зверніть увагу , що в строгому визначенні довірчого інтервалу, то є можливо , що вони абсолютно безглуздий, тобто, не інформативно цікавить параметр. Однак на практиці вони, як правило, дуже значущі.

Як приклад безглуздого довірчого інтервалу, припустимо, я маю процедуру, яка 95% часу виробляє , а 5% часу виробляє [ , ], де - будь-яка пара випадкових змінних, така що . Тоді це процедура, яка фіксує будь-яку ймовірність щонайменше в 95% часу, тому технічно є допустимим довірчим інтервалом для будь-якої ймовірності. Але якщо я сказав, що інтервал, який виробляється цією процедурою, був для заданого , ви повинні усвідомити, що ви справді нічого не дізналися про .[0,1]UminUmaxUmin,Umax U m i n < U m a x [ 0.01 , 0.011 ] p pUmin<Umax[0.01,0.011]pp

З іншого боку, більшість довірчих інтервалів будуються більш корисним чином. Наприклад, якщо я сказав вам, що він створений за допомогою процедури Wald Interval, ми це знаємо

p^ ˙ N(p,se)

де - це стандартна помилка. Це дуже змістовне твердження про те, як ставиться до . Перетворення цього інтервалу довіри - це просто спроба спростити цей результат тому, хто не так знайомий із звичайними розподілами. Це також не просто сказати, що це лише інструмент для людей, які не знають про нормальні розподіли; наприклад, процентний завантажувальний інструмент - це інструмент для підсумовування помилок між оцінкою та істинним параметром, коли розподіл цієї помилки може бути не гауссовим.seр рp^p


2

Інтервали довіри не тільки корисні, але й важливі в певній галузі, наприклад, фізиці. На жаль, найбільше шуму щодо КІ лунає від байесів, що потрапляють у фейкові дебати з частотаністами, як правило, в контексті соціальних "наук" та інших наукоподібних дисциплін.

Припустимо, я вимірюю величину в фізиці, наприклад, заряд електроенергії. Я завжди поставив би це мірою невизначеності значення, яке зазвичай є стандартним відхиленням. Оскільки у фізиці помилки часто є гауссовими, це безпосередньо перекладається на CI. Однак, коли помилки не є гауссовими, вони стають трохи складнішими, деякі інтеграли повинні бути оцінені і т.д. Нічого занадто езотеричного, хоча зазвичай.

Ось коротка презентація про КІ з фізики частинок та визначення:

кількісне твердження про частку разів, коли такий інтервал містив би справжнє значення параметра у великій кількості повторних експериментів

Зауважимо, що у фізиці "повторні експерименти" часто мають буквальне значення: передбачається, що ви можете насправді повторити експерименти в роботі і насправді спостерігати за цим дробом. Отже, КІ має для вас майже буквальне значення і є лише способом висловити інформацію про невизначеність вимірювання. Це не мисленнєвий експеримент, не суб'єктивна думка, не ваше чи моє почуття щодо ймовірності тощо. Це те, що ви змогли придумати в експериментах, і те, що я повинен мати змогу спостерігати під час відтворення вашого експерименту.


1

Цей потік швидко перейшов у дискусію "Частота проти Баєса", і це не легко вирішити. Математика в обох підходах є твердою, тому вона завжди зводиться до філософських уподобань. Частістське тлумачення ймовірності як межі відносної частоти події виправдане сильним законом великих чисел; незалежно від бажаної інтерпретації ймовірності, відносна частота події буде сходитися до її ймовірності з ймовірністю 1.

Інтервали довіри часто є більш складними для інтерпретації, ніж достовірні інтервали Байєса. Трактуючи невідому величину як випадкову величину, байєси можуть стверджувати, що один інтервал містить цю величину з деякою ймовірністю. Часто часто відмовляються трактувати деякі величини як випадкові величини, і будь-які рівняння, що містять лише константи, можуть бути лише істинними або хибними. Отже, оцінюючи невідому константу, часто лікарі повинні обмежувати їх інтервалом RANDOM, щоб взагалі включати ймовірність. Замість одного інтервалу, що містить випадкову величину з певною вірогідністю, частофілістський метод генерує безліч різних можливих інтервалів, частина яких містить невідому константу. Якщо ймовірність покриття досить висока, це розумний стрибок віри стверджувати, що певний інтервал містить невідому константу (зверніть увагу, не "

Байєзійці брікають таким стрибком віри настільки ж, як частофіліат відзначає трактування будь-якої невідомої кількості як випадкової величини. Фактичний нейманський метод будівництва насправді викривав незручне питання з такими стрибками віри. Без активного запобігання цьому (див. Feldman and Cousins, 1997 для одного підходу) рідкісні результати можуть генерувати довірчі інтервали EMPTY для параметра розподілу. Такий стрибок віри був би дуже необгрунтованим! Я бачив декількох байезійців, що використовують цей приклад для знущань із частолістських методів, тоді як ветеринари зазвичай відповідають "добре, я все-таки отримую правильний інтервал більшість часу, і не роблячи помилкових припущень". Я зазначу, що байєсівський / частолістський глухий кут не важливий для більшості тих, хто застосовує свої методи.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.