Чому інтервал довіри 95% (CI) не передбачає 95% шансу містити середнє значення?


228

Здається, що через різні пов'язані з цим питання тут існує консенсус, що "95%" частина того, що ми називаємо "95% довірчим інтервалом", посилається на те, що якби ми багато разів точно повторювали наші процедури вибірки та обчислення CI 95% таким чином обчислених КІ містили б середнє значення для населення. Крім того , як видається, консенсус , що це визначення робить НЕдозволяють зробити висновок із одного 95% ІС, що існує 95% шансів, що середнє значення потрапить десь у межах ІС. Однак я не розумію, як перший не означає, що другий настільки, що, уявивши, що багато ІС, 95% яких містить кількість населення, не повинні бути нашою невизначеністю (щодо того, чи містить у нас фактично обчислена ІС населення означають чи ні) змушують нас використовувати базову ставку уявлених випадків (95%) як нашу оцінку ймовірності того, що наш фактичний випадок містить ІС?

Я бачив повідомлення, що сперечаються за принципами "фактично обчислений CI або містить середнє значення сукупності, або його немає, тому його ймовірність або 1, або 0", але це, мабуть, означає дивне визначення ймовірності, яка залежить у невідомих штатах (тобто друг гортає справедливу монету, приховує результат, і мені заборонено сказати, що є 50% шансів, що це голови).

Звичайно, я помиляюся, але не бачу, де моя логіка зіпсувалася ...


4
Під "випадковістю" ви маєте на увазі "ймовірність" у технічному частістському розумінні чи в байєсівському сенсі суб'єктивної правдоподібності? У частістському сенсі ймовірність мають лише події випадкових експериментів. Перегляд трьох заданих (фіксованих) чисел (справжнє середнє значення, обчислені межі CI) для визначення їх порядку (справжнє середнє значення, що міститься в CI?) Не є випадковим експериментом. Ось чому причина ймовірності "фактично обчисленої ІП або містить середнє значення сукупності, або його немає, тому його ймовірність є або 1, або 0" також є помилковою. Частоталістична імовірнісна модель в цьому випадку просто не застосовується.
каракал

11
Це залежить від того, як ви ставитеся до теоретичного значення. Якщо це випадкова величина, то можна сказати про ймовірність того, що вона потрапить у якийсь інтервал. Якщо він постійний, ви не можете. Це найпростіше пояснення, яке закрило це питання особисто для мене.
mpiktas

2
До речі, я натрапив на цю розмову, від Тадея Тарпея: Усі моделі вірні ... більшість - марні . Він обговорив питання про ймовірність того, що 95% довірчий інтервал містить (стор. 81 ff.)? мк
chl

3
@Nesp: Я не думаю, що з твердженням "Це ймовірність або нуль, або один", немає посилань на (задню) ймовірність того, що CI містить (фіксований) параметр. (Це навіть не дуже покладається на будь-яке частолістське тлумачення ймовірності!). Він також не покладається на "невідомі держави". Таке твердження стосується саме ситуації, в якій передається ІП на основі певного зразка. Це проста математична вправа, яка показує, що будь-яка така ймовірність є тривіальною, тобто приймає значення в . {0,1}
кардинал

3
@MikeLawrence три роки, чи задоволений ви визначенням 95-відсоткового довірчого інтервалу таким чином: "якби ми неодноразово відбирали вибірку від популяції та обчислювали 95% довірчий інтервал після кожної вибірки, 95% нашого довірчого інтервалу містило б середнє значення ". Як і ви у 2012 році, я намагаюся зрозуміти, як це не означає, що 95% довірчий інтервал має 95% вірогідність утримування середнього. Мені було б цікаво побачити, як прогресувало ваше розуміння інтервалу довіри, оскільки ви задали це питання.
luciano

Відповіді:


107

Частина питання полягає в тому, що частотистське визначення ймовірності не дозволяє застосувати нетривіальну ймовірність до результату певного експерименту, а лише до деякої вигаданої сукупності експериментів, з яких саме цей експеримент можна вважати вибіркою. Визначення ІП є заплутаним, оскільки це твердження про цю (звичайно) вигадану сукупність експериментів, а не про конкретні дані, зібрані в конкретному випадку. Тож частина питання є одним із визначення ймовірності: Ідея справжнього значення, що лежить у певному інтервалі з вірогідністю 95%, не узгоджується із частофілістською структурою.

Інший аспект проблеми полягає в тому, що підрахунок довіри частолістів не використовує всю інформацію, що міститься в конкретному зразку, що має значення для обмеження справжнього значення статистики. Моє запитання: "Чи є приклади, коли достовірні інтервали Байєса, очевидно, поступаються інтервалів довірчих частот"обговорюється документ Едвіна Джейнеса, в якому є кілька справді хороших прикладів, які дійсно підкреслюють різницю між довірчими інтервалами та достовірними інтервалами. Особливо актуальним для цієї дискусії є Приклад 5, який обговорює різницю між достовірним та довірчим інтервалом для оцінки параметра усіченого експоненціального розподілу (для проблеми управління промисловим якістю). У прикладі, який він наводить, у вибірці є достатньо інформації, щоб бути впевненим, що справжнє значення параметра не знаходиться ніде у правильно побудованому 90% довірчому інтервалі!

Для когось це може здатися шокуючим, але причиною цього результату є те, що довірчі інтервали та достовірні інтервали - це відповіді на два різні запитання з двох різних інтерпретацій вірогідності.

Інтервал довіри - це відповідь на запит: "Надайте мені інтервал, який укладе в дужку справжнє значення параметра в % випадків експерименту, який повторюється велика кількість разів". Довіри інтервал є відповіддю на запит: «Дайте мені інтервал то, що дужки справжнє значення з імовірністю р . Даний конкретний зразок , я на самому ділі спостерігається » Для того, щоб бути в змозі відповісти на останній запит, ми повинні спочатку прийняти або (а ) нове поняття процесу генерації даних або (b) інше поняття визначення самої ймовірності. 100pp

Основна причина того, що будь-який конкретний 95-відсотковий інтервал довіри не передбачає 95% шансу утримувати середнє, полягає в тому, що довірчий інтервал є відповіддю на інше запитання, тому це лише правильна відповідь, коли відповідь на два питання трапляється на мають однакове числове рішення.

Коротше кажучи, надійні та довірчі інтервали відповідають на різні запитання з різних точок зору; обидва корисні, але вам потрібно вибрати правильний інтервал для питання, яке ви насправді хочете задати. Якщо ви хочете, щоб інтервал, який допускає інтерпретацію 95% (задньої) ймовірності містити справжнє значення, тоді виберіть надійний інтервал (а разом з цим супутню концептуалізацію ймовірності), а не довірчий інтервал. Що ви не повинні робити, це прийняти інше визначення ймовірності в інтерпретації, ніж те, яке використовується в аналізі.

Дякуємо @cardinal за його вдосконалення!

Ось конкретний приклад з чудової книги Девіда Макая "Теорія інформації, висновки та алгоритми навчання" (стор. 464):

Нехай параметр, що цікавить, буде а дані D - пара точок x 1 і x 2, проведених незалежно від наступного розподілу:θDх1х2

p(х|θ)={1/2х=θ,1/2х=θ+1,0отгодеrшiсе

Якщо є 39 , то можна було б очікувати , щоб побачити набори даних ( 39 , 39 ) , ( 39 , 40 ) , ( 40 , 39 ) і ( 40 , 40 ) , все з однаковою ймовірністю 1 / 4 . Розглянемо довірчий інтервалθ39(39,39)(39,40)(40,39)(40,40)1/4

.[θмiн(D),θмах(D)]=[мiн(х1,х2),мах(х1,х2)]

Зрозуміло, що це допустимий 75% -ний довірчий інтервал, оскільки якщо ви повторно відібрали дані, , то багато разів тоді інтервал довіри, побудований таким чином, містив би справжнє значення 75% часу.D=(х1,х2)

Тепер розглянемо дані . У цьому випадку часто-довірчий інтервал довіри 75% був би [ 29 , 29 ] . Однак, якщо припустити, що модель процесу генерації є правильною, θ в цьому випадку може бути 28 або 29, і ми не маємо підстав припускати, що 29 більше, ніж 28, тому задня ймовірність дорівнює p ( θ = 28 | D ) = р ( θ = 29 | D ) = 1 / 2D=(29,29)[29,29]θp(θ=28|D)=p(θ=29|D)=1/2. Отже, у цьому випадку часто довірчий інтервал явно не є 75% достовірним інтервалом, оскільки існує лише 50% вірогідність того, що він містить справжнє значення , враховуючи, що ми можемо зробити висновок про θ з цього конкретного зразка .θθ

Так, це надуманий приклад, але якби довірчі інтервали та достовірні інтервали не відрізнялися, вони все одно були б ідентичними у надуманих прикладах.

Зауважте, що ключова відмінність полягає в тому, що інтервал довіри - це твердження про те, що трапилося б, якщо ви повторили експеримент багато разів, достовірний інтервал - це твердження про те, що можна зробити з цього конкретного зразка.


8
Інтервал довіри - це відповідь на запитання "дайте мені інтервал, який буде дувати справжнє значення статистики з ймовірністю p, якщо експеримент повторюється велика кількість разів". Достовірний інтервал - це відповідь на запитання "дайте мені інтервал, який дужкою відповідає справжнє значення з ймовірністю p". Перш за все, твердження щодо частотистського тлумачення ймовірності залишає бажати кращого. Можливо, питання полягає у використанні слова ймовірність у тому реченні. По-друге, я вважаю, що достовірний інтервал "визначення" є занадто спрощеним ...
кардинал

7
... і злегка вводячи в оману, враховуючи характеристику, яку ви даєте ІП. У спорідненому ключі заключне речення має те саме питання: Якщо ви хочете, щоб інтервал, який містить справжнє значення 95% часу, виберіть достовірний інтервал, а не інтервал довіри. Розмовне використання "містить справжнє значення 95% часу" є трохи неточним і залишає неправильне враження. Дійсно, я можу зробити переконливий аргумент (я вважаю), що таке формулювання набагато ближче до визначення ІС.
кардинал

11
Запит : Корисним для цієї відповіді було б корисно висловити свою думку / причини в коментарях. Хоча це питання трохи більше шансів, ніж більшість, призведе до розширеного обговорення, все ж корисно надати конструктивний зворотний зв’язок відповідачам; це один із найпростіших способів покращити загальний вміст сайту. Ура.
кардинал

9
Дікран, так, я згоден. Це було частиною того, що я намагався змалювати трохи більше в редакціях. Радикальний частофіліст (якого я точно не маю ) може заявити про провокаційно так: "КІ консервативний тим, що я заздалегідь проектую інтервал таким чином, що незалежно від того, які конкретні дані я спостерігаю, параметр буде зафіксований в інтервалі 95% Надійсний інтервал виникає з того, що я сказав: "На жаль, хтось просто кинув мені якісь дані. Яка ймовірність, що інтервал, який я будую з цих даних, містить справжній параметр?" "В останньому випадку це трохи несправедливо." .
кардинал

2
Дікран, всі ми походимо з різного походження, і це допомагає збагатити наше розуміння. Що стосується ймовірності та пов'язаних з цим понять, то, мабуть, найяскравіший мислитель, з яким я мав задоволення взаємодіяти, не мав офіційної статистики або (математичного) рівня ймовірності; він був інженером.
кардинал

28

У частофілістській статистиці ймовірність стосується подій у довгостроковій перспективі. Вони просто не стосуються жодної події після її проведення. І проведення експерименту та розрахунок ІС - саме така подія.

Ви хотіли порівняти це з ймовірністю того, що прихована монета буде головою, але ви не можете. Ви можете пов’язати це з чимось дуже близьким. Якщо у вашій грі було правило, згідно з яким ви повинні вказати після перекидання "голови", то ймовірність, що ви будете правильні, в довгостроковій перспективі становить 50%, і це аналогічно.

Коли ви запускаєте експеримент і збираєте свої дані, то у вас є щось подібне до фактичного перевертання монети. Процес експерименту схожий на процес гортання монети тим, що він генерує мкабо це не просто подобається, що монети є головами, чи ні. Як тільки ви перевернете монету, бачите ви її чи ні, немає ймовірності, що це голови, чи це голови, чи ні. Тепер припустимо, що ви телефонуєте начальникам. Ось що таке розрахунок ІС. Тому що ви ніколи не зможете розкрити монету (ваша аналогія експерименту зникне). Або ви праві, або не помиляєтесь, це все. Чи має це поточний стан якесь відношення до ймовірності того, що він з'явиться головою на наступному перевороті, або що я міг передбачити, що це таке? Ні. Процес, за допомогою якого виробляється голова, має 0,5 ймовірності їх виготовлення, але це не означає, що голова, яка вже існує, має 0,5 ймовірності існування. Після того, як ви обчислите свій ІС, немає ймовірності, що він захопить мк, або так, або ні, ви вже перекинули монету.

Гаразд, я думаю, що я його досить мучив. Критичний момент - це те, що ваша аналогія помилкова. Ви ніколи не можете розкрити монету; ви можете називати тільки голови або хвости на основі припущень про монети (експерименти). Ви можете згодом зробити ставку на правильні голови або хвости, але ви ніколи не можете їх збирати. Крім того, важливим компонентом процедури CI є те, що ви заявляєте, що значення імпорту знаходиться в інтервалі. Якщо ви цього не зробите, у вас немає CI (або принаймні не одного із зазначеного%).

Можливо, те, що робить КІ заплутаним, це його ім'я. Це діапазон значень, який або містить, або не містить . Ми думаємо, що вони містять μ, але ймовірність цього не є такою ж, як процес, який розвивався. 95% -на назва 95% CI - саме про процес. Ви можете обчислити діапазон, який, на вашу думку, після цього містить μ на певному рівні ймовірності, але це інший розрахунок, а не ІС.мкмкмк

Краще думати назву 95% CI як позначення свого роду вимірювання діапазону значень, які, на вашу думку, правдоподібно містять і відокремлюють 95% від цієї правдоподібності. Ми можемо назвати це Дженніфер КІ, тоді як 99% ДІ - Венді. Це насправді може бути краще. Тоді, згодом, ми можемо сказати, що ми вважаємо, що μ , ймовірно, знаходиться в діапазоні значень, і ніхто не зациклюється, сказавши, що існує ймовірність Венді, що ми захопили μ . Якщо ви хочете іншого призначення, я думаю, ви, мабуть, не соромтеся позбутися і «впевненої» частини CI (але це інтервал).мкмкмк


Якщо бути справедливим, ця відповідь здається нормальною, але я люблю побачити її формальний (математичний) опис. Під формальним я маю на увазі перетворення його на події. Я поясню свою думку: я пам’ятаю, що на початку дуже сильно плутали значення . Десь я прочитав, що " фактично обчислюють значення p - це ймовірність даних, враховуючи, що нульова гіпотеза H 0 є істинною". Коли я пов’язав це з теоремою Байєса, все набуло такого сенсу, що тепер я можу пояснити це всім (тобто той, що обчислює p ( D | H 0 ) ). Однак я (за іронією долі) не такий впевнений ...ppН0p(D|Н0)
Нестор

... (продовження) з довірчими інтервалами: чи є спосіб висловити те, що ви сказали, щодо знань? По-справжньому. статистика. один зазвичай обчислює оцінку , з яким - або способом (наприклад, MLE). Чи є спосіб , щоб написати P ( L 1 ( μ ) < цмк^ (наприкладза допомогою байєсівського центральної задньої інтервал, з ц "істинний середній") як функції Р ( L 1 < ˉ X - μ <П(L1(мк^)<мк<L2(му^)|D)мк (тобто, що такенасправді α % довірчих інтервалів), як коли ви можете виразити p ( H 0 | D ) як функцію p ( D | H 0 ) ? Я інтуїтивно завжди думав, що це можна зробити, але ніколи цього не робив. П(L1'<Х¯-мк<L2')=ααp(H0|D)p(D|H0)
Нестор

Іноді можливість видалення коментарів має свої недоліки. У цьому випадку я не міг не відставати від швидких змін!
кардинал

1
" Якщо ви не розраховуєте інтервал довіри, у вас є щось схоже на приховану монету, і вона має 95% ймовірність вмістити мю так само, як і монета має 50% ймовірність бути головою ". - Я думаю, ви отримали аналогія тут неправильна. "Обчислення ІП" не відповідає розкриттю монети, це відповідає виклику "Головою" або "Хвостами", і тоді ви все ще маєте 50-50 шансів бути правильним. Виявлення монети відповідає * бачити значення популяції , в цей момент ви можете відповісти на питання, чи знаходиться вона в інтервалі «називається». Загадка ОП залишається. мк
Glen_b

1
@vonjd, я не бачу, що в цьому немає сенсу. Цілком очевидно, що у опонента флеш чи ні. Якщо перший, ймовірність дорівнює (тривіально) 1, а якщо останній 0. Отже, не можна з розумом сказати, що ймовірність дорівнює .198. Це має ідеальний сенс. Перш ніж розібратися з рукою, доцільно поговорити про ймовірність того, що ви отримаєте флеш. Так само перед тим, як намалювати карту, доцільно поговорити про ймовірність отримання потрібного костюма. Після того, як ви отримаєте карту, це просто будь-який костюм.
gung

22

Формальні, явні уявлення про аргументи, умовиводи та логіку виникли, в межах західної традиції, з Арістотеля. Про ці теми Аристотель писав у кількох різних творах (включаючи тему, що називається Теми ;-)). Однак найосновніший єдиний принцип - Закон протиріччя , який можна знайти в різних місцях, включаючи Метафізикукнига IV, глави 3 та 4. Типовою формулюванням є: "... неможливо, щоб нічого одночасно було і не було [у тому ж сенсі]" (1006 a 1). Його важливість було заявлено трохи раніше, "... це, природно, відправна точка навіть для всіх інших аксіом" (1005 b 30). Пробачте, я зафіксував філософське, але це питання за своєю суттю має філософський зміст, який не можна просто відсунути для зручності.

Розглянемо цей мислительний експеримент: Алекс перевертає монету, ловить її і перевертає на передпліччя рукою, що прикриває сторону вгору. Боб стояв у правильному положенні; він коротко побачив монету в руці Алекса і, таким чином, зможе визначити, яка сторона зараз звернена. Однак Карлос не бачив монети - він виявився не в потрібному місці. У цей момент Алекс запитує їх, яка ймовірність того, що монета показує голови. Карлос припускає, що ймовірність становить .5, оскільки це довгострокова частота головок. Боб не погоджується, він впевнено стверджує, що ймовірність - це не що інше, як саме 0 .

Тепер, хто правий? Можливо, звичайно, що Боб неправильно бачив і є неправильним (припустимо, він не помилявся). Тим не менш, ви не можете стверджувати, що обидва мають рацію і дотримуються закону про суперечливість. (Я припускаю, що якщо ви не вірите в закон про суперечливість, ви можете подумати, що вони обидва праві, або якась інша така формулювання.) Тепер уявіть собі подібний випадок, але без присутності Боба, чи може пропозиція Карлоса бути правильніше (так?) без Боба навколо, оскільки ніхто не бачив монети? Застосування закону про суперечливість не є настільки очевидним у даному випадку, але я вважаю очевидним, що частини ситуації, які здаються важливими, є постійними від першого до другого. Було багато спроб визначити ймовірність, і в майбутньому може бути ще багато, але визначення ймовірності як функції того, хто, хто стоїть, стоїть і де вони розташовані, має мало привабливості. У будь-якому випадку (вгадавши, використовуючи фразу "інтервал довіри "), ми працюємо в рамках підходу" Частота ", і в тому, чи хтось знає справжній стан монети, не має значення. Це не випадкова величина - це реалізована величина, або вона показує голови, або показує хвости .

Як зазначає @John, стан монети може спочатку не здаватися подібним до питання, чи охоплює довірчий інтервал справжнє середнє значення. Однак замість монети ми можемо зрозуміти це абстрактно як реалізовану величину, отриману з розподілу Бернуллі з параметром . У монетній ситуації p = .5 , тоді як для 95% І, p = .95 . Що важливо усвідомити при встановленні зв'язку, це те, що важливою частиною метафори є не р, який керує ситуацією, а скоріше те, що перевернута монета або обчислена ІП - це реалізована величина , а не випадкова величина. pp=.5p=.95p

Мені важливо в цей момент зазначити, що все це відбувається в рамках імовірності концепту частопенієнта. Байєсівська перспектива не порушує закон не суперечності, вона просто починається з різних метафізичних припущень про природу реальності (точніше про ймовірність). Інші з резюме набагато краще розбираються в байєсівській перспективі, ніж я, і, можливо, вони можуть пояснити, чому припущення, що стоять перед вашим запитанням, не застосовуються в рамках байєсівського підходу, і що насправді, можливо, 95% ймовірність середнього значення лежачи в межах 95% достовірнихінтервал, за певних умов, включаючи (серед інших), що попереднє використання було точним (див. коментар @DikranMarsupial нижче). Однак я думаю, що всі згодні, що коли ви заявляєте, що працюєте в рамках частотного підходу, то не може бути так, що вірогідність справжнього середнього значення лежить в межах конкретного 95% ІС становить 95.


5
При байєсівському підході не вірно, що насправді існує 95% ймовірність того, що справжнє значення лежить у 95% достовірному інтервалі. Правильніше було б сказати, що, враховуючи певний попередній розподіл для значення статистики (що представляє наш початковий стан знань), то спостерігаючи дані, ми маємо задній розподіл, що представляє оновлений стан знань, який дає нам інтервал, де ми на 95% впевнені, що справжня цінність лежить. Це буде точно, лише якщо наше попереднє є точним (та іншими припущеннями, такими як форма ймовірності).
Дікран Марсупіал

@DikranMarsupial, дякую за замітку. Це трохи рот. Я відредагував свою відповідь, щоб вона відповідала вашій пропозиції, але не скопіювала її в тото . Повідомте мене, чи потрібні подальші зміни.
gung

По суті байєсівський підхід найкраще трактувати як виклад вашого стану знань щодо параметра, що цікавить (див. Кардинальний, я вчуся; o), але не гарантує, що такий стан знань правильний, якщо всі припущення не є правильними . Мені сподобалося філософське обговорення, мені доведеться пам’ятати закон про протиріччя, наступного разу, коли буде обговорюватися нечітка логіка; o)
Дікран Марсупіал

12

Чому 95% ІС не означає 95% шансу містити середнє?

У цьому питанні та в більшості наведених відповідей має бути прояснено багато питань. Я обмежуся лише двома з них.

а. Що означає населення? Чи існує справжнє населення?

Поняття середньої чисельності населення залежить від моделі. Оскільки всі моделі помиляються, але деякі є корисними, це популяція означає вигадку, яка визначається просто для надання корисних тлумачень. Художня література починається з імовірнісної моделі.

Модель ймовірності визначається триплетом де X - пробний простір (не порожній набір), F - сімейство підмножин X і P - добре визначена міра ймовірності, визначена за F (він регулює поведінку даних). Не втрачаючи загальності, розглянемо лише дискретний випадок. Середнє значення сукупності визначається μ = x X x P ( X = x ) , тобто воно являє собою центральну тенденцію за P

(X,F,P),
ХЖХПЖ
мк=хХхП(Х=х),
Пі його також можна інтерпретувати як центр маси всіх точок у ( X = x ) .Х, де вага кожного задається PхХП(Х=х)

У теорії ймовірностей міра вважається відомою, тому середнє значення сукупності є доступним за допомогою наведеної вище простої операції. Однак на практиці вірогідність Р навряд чи відома. Без вірогідності Р не можна описати ймовірнісну поведінку даних. Оскільки ми не можемо встановити точну ймовірність P для пояснення поведінки даних, ми встановлюємо сімейство M, що містить заходи ймовірності, які, можливо, регулюють (або пояснюють) поведінку даних. Потім виникає класична статистична модель ( X , F , M ) . Зазначена модель вважається параметричною моделлю, якщо існує ΘППППМ

(Х,Ж,М).
з p < таким, що M{ P θ : θ Θ } . Розглянемо лише параметричну модель у цій публікації.ΘRpp<М{Пθ: θΘ}

Зауважте, що для кожної міри ймовірності існує відповідне середнє визначення μ θ = x X x P θ ( X = x ) . Тобто, існує сім'я населення, що означає { μ θ : θ Θ }, що дуже залежить від визначенняПθМ

мкθ=хХхПθ(Х=х).
{мкθ: θΘ} . Сім'я МММвизначається обмеженими людьми, тому він може не містити істинної міри ймовірності, яка керує поведінкою даних. Насправді обрана сім'я навряд чи буде містити справжню міру, більше того, ця справжня міра може навіть не існувати. Оскільки поняття середньої сукупності залежить від міри ймовірності в , то середнє значення населення залежить від моделі.М

Байєсівський підхід розглядає попередню ймовірність щодо підмножини М (або, що еквівалентно, ), але в цій посаді я сконцентруюся лише на класичній версії.Θ

б. Що таке визначення та мета довірчого інтервалу?

Як було сказано вище, популяційне значення залежить від моделі та дає корисні інтерпретації. Однак у нас є сім'я населення, тому що статистична модель визначається сімейкою імовірнісних заходів (кожен імовірнісний захід генерує середнє значення сукупності). Тому, спираючись на експеримент, слід застосовувати інфекційні процедури, щоб оцінити невеликий набір (інтервал), що містить хороших кандидатів населення. Однією з відомих процедур є довірча область ( ), яка визначається набором C α таким, що для всіх θ Θ , P θ ( C α ( X ) μ1-αСαθΘ де P θ ( C α ( X ) = ) = 0 (див. Schervish, 1995). Це дуже загальне визначення і охоплює практично будь-який тип інтервалів довіри. Тут P θ ( C

Pθ(Cα(X)μθ)1α   and   infθΘPθ(Cα(X)μθ)=1α,
Pθ(Cα(X)=)=0 - ймовірність того, що C α ( X ) містить μ θ під мірою P θ . Ця ймовірність повинна бути завжди більшою (або дорівнює) 1 - α , рівність виникає в гіршому випадку.Pθ(Cα(X)μθ)Cα(X)μθPθ1α

Зауваження: Читачі повинні помітити, що не варто робити припущення про стан реальності, область довіри визначається для чітко визначеної статистичної моделі, не посилаючись на будь-яке «справжнє» значення. Навіть якщо "істинного" міри ймовірності не існує або його немає , визначення області довіри буде спрацьовувати, оскільки припущення стосуються статистичного моделювання, а не стану реальності.M

З одного боку, перед спостереженням даних є випадковим набором (або випадковим інтервалом), і ймовірність того, що " C α ( X ) містить середнє μ θ ", є, щонайменше, ( 1 - α ) для всіх θCα(X)Cα(X)μθ(1α) . Це дуже бажана особливість парадигми частолістів.θΘ

З іншого боку, після спостереження за даними , C α ( x ) - це лише фіксований набір, і ймовірність того, що " C α ( x ) містить середнє μ θ ", повинна бути {0,1} для всіх θxCα(x)Cα(x)μθ .θΘ

Тобто, після того, як дані спостережень за , ми не можемо використовувати розподіл усіх міркування більше. Наскільки я знаю, немає теорії, яка б розглядала набори довіри для спостережуваної вибірки (я працюю над цим і отримую хороші результати). Певний час частофіліст повинен вважати, що спостережуваний набір (або інтервал) C α ( x ) є одним із ( 1 - α ) 100 % множин, що містить μ θ для всіх θxCα(x)(1α)100%μθ .θΘ

PS: Я запрошую будь-які коментарі, огляди, критику чи навіть заперечення проти моєї публікації. Давайте обговоримо це глибоко. Оскільки я не є носієм англійської мови, мій пост, безумовно, містить помилки друку та граматики.

Довідка:

Schervish, M. (1995), Theory of Statistics, Second ed, Springer.


Хтось хоче це обговорити?
Олександр Патріота

4
Обговорення можуть відбуватися в чаті, але на нашому головному сайті недоречні. Будь ласка, відвідайте наш довідковий центр для отримання додаткової інформації про те, як це працює. Тим часом мене спантеличує форматування вашої публікації: майже все це відформатоване як цитата. Ви витягли цей матеріал з якогось опублікованого джерела чи це ваш власний, щойно написаний для цієї відповіді? Якщо це остання, то, будь ласка, видаліть цитати!
whuber

2
(+1). Дякую за вражаючий чіткий конспект Ласкаво просимо на наш сайт!
whuber

11

Я здивований, що ніхто не наводив приклад Бергера фактично марного 75-відсоткового довірчого інтервалу, описаного у другій главі "Принципу ймовірності". Деталі можна знайти в оригінальному тексті (який доступний безкоштовно на Project Euclid ): що важливо для прикладу, це те, що він однозначно описує ситуацію, в якій ви з абсолютною впевненістю знаєте значення нібито невідомого параметра після спостерігаючи дані, але ви стверджуєте, що у вас є лише 75% впевненості, що ваш інтервал містить справжнє значення. Розробка деталей цього прикладу дозволила мені зрозуміти всю логіку побудови довірчих інтервалів.


8
В обстановці частотної, один б НЕ «стверджувати , що у вас є тільки 75% впевнені , що ваш інтервал містить істинне значення» в якості посилання на CI, в першу чергу. У цьому полягає суть проблеми. :)
кардинал

1
чи можете ви надати прямий посилання / посилання на сторінку до цього прикладу? Я шукав розділ, але не зміг визначити правильний приклад.
Рональд

@Ronald: Це перша на першій сторінці глави 2. Пряме посилання буде вітальним доповненням.
кардинал

1
Посилання за запитом Ага так. У цьому прикладі здається зрозумілим: якщо ми проведемо експеримент, є 75% шансів, що отриманий інтервал впевненості буде містити середнє значення. Після того, як ми провели експеримент і дізнаємося, як він пройшов, ця ймовірність може бути різною, залежно від розподілу отриманого зразка.
Рональд

7

Я не знаю, чи слід це ставити як нове запитання, але це саме те саме питання, яке було задано вище, пропонуючи продуманий експеримент.

По-перше, я припускаю, що якщо я виберу гральну карту навмання зі стандартної колоди, ймовірність того, що я вибрав клуб (не дивлячись на нього), становить 13/52 = 25%.

По-друге, багато разів говорилося про те, що 95-відсотковий інтервал довіри слід інтерпретувати з точки зору повторення експерименту багаторазово, і обчислений інтервал буде містити справжню середню 95% часу - я думаю, це Джеймс Уотерс демонстрував досить переконливо. моделювання. Більшість людей, схоже, приймають цю інтерпретацію 95% ІС.

Тепер для продуманого експерименту. Припустимо, що у нас є велика кількість розподілених змін у великій популяції - можливо висоти дорослих чоловіків чи жінок. У мене є бажаючий і невтомний помічник, якого я завдання виконувати кілька процесів вибірки заданого розміру вибірки з сукупності і обчислювати середню вибірку та довірчий інтервал 95% для кожного зразка. Мій помічник дуже прагне і вдається виміряти всі можливі зразки з популяції. Потім для кожного зразка мій помічник або записує отриманий інтервал довіри як зелений (якщо ІС містить справжнє середнє) або червоний (якщо ІС не містить справжнього середнього). На жаль, мій помічник не покаже мені результатів своїх експериментів. Мені потрібно отримати деяку інформацію про висоту дорослих серед населення, але у мене є лише час, ресурси та терпіння зробити експеримент один раз. Я роблю єдину випадкову вибірку (того ж розміру вибірки, яку використовував мій помічник) і обчислюю довірчий інтервал (використовуючи те саме рівняння).

Я не можу побачити результати мого помічника. Отже, яка ймовірність того, що вибраний нами випадковий зразок дасть зелений CI (тобто інтервал містить справжнє середнє значення)?

На мій погляд, це те саме, що ситуація з колодою карт, окреслена раніше, і може бути інтерпретована, що є 95% ймовірністю того, що обчислений інтервал містить справжню середню (тобто зелену). І все-таки консенсус здається, що 95% довірчий інтервал НЕ можна інтерпретувати, оскільки існує 95% ймовірність того, що інтервал містить справжнє середнє значення. Чому (і де) моє міркування у вищевказаному експерименті розпадається?


+1 Це надзвичайно чіткий виклад концептуального прогресування від нормальної сукупності до бінарної ситуації вибірки. Дякуємо, що поділилися цим із нами, і ласкаво просимо на наш сайт!
whuber

Будь ласка, опублікуйте це як питання.
Іван

Дякую за коментар, Джон. Опублікували як окреме запитання ( stats.stackexchange.com/questions/301478/… ).
користувач1718097

4

θ(X1,X2,,Xn)100p%

P(g(X1,X2,,Xn)<θ<f(X1,X2,,Xn))=p

θg(X1,X2,,Xn)f(Х1,Х2,,Хн)(г(Х1,Х2,,Хн),f(Х1,Х2,,Хн))

Отже, замість того, щоб давати будь-яку інформацію про ймовірність того, що параметр міститься в інтервалі, він дає інформацію про ймовірність інтервалу, що містить параметр - як інтервал робиться з випадкових змінних.


3

Для практичних цілей ви не помиляєтесь, що ваш 95% ІСН включав справжню середню величину при шансах 95: 5, ніж ви робите ставку на перевернення монети вашого друга при шансах 50:50.

Якщо ваш друг уже перевернув монету, і ви думаєте, що існує 50% ймовірність того, що вона буде головою, то ви просто використовуєте інше визначення слова ймовірність. Як говорили інші, для часто відвідувачів ви не можете призначити ймовірність події, яка сталася, а скоріше ви можете описати ймовірність події, яка відбудеться в майбутньому, використовуючи заданий процес.

З іншого блогу: частофіліст скаже: "Певна подія не може мати ймовірності. Монета показує або голову, або хвости, і, якщо ви її не покажете, я просто не можу сказати, що є фактом. Тільки якщо ви повторите жеребкування багато, багато разів, будь-яке, якщо досить сильно змінити початкові умови кидання, я б очікував, що відносна частота голів у всіх цих багатьох кидках наблизиться до 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability


2
Цей блог звучить як солом’яний аргумент людини. Схоже, це змішує філософію ймовірності з якимось (неіснуючим) властивим обмеженням у здатності створювати ймовірнісні моделі. Я не визнаю жодної форми класичних статистичних процедур чи методології в цій характеристиці. Тим не менш, я вважаю, що ваш остаточний висновок хороший - але мова, якою він користується, не даючи зрозуміти, що ставка стосується ІС, а не середнього, ризикує створити форму плутанини, щодо якої це питання має на меті вирішити.
whuber

1
Один із способів, яким я часто користуюся, - це підкреслити, що ІП є результатом процедури. Що мені подобається у вашому остаточному твердженні, це те, що його можна легко переробити у такій формі, як у "Ви більше не помиляєтесь робити ставку на 95: 5 шанси на те, що ваш 95% -ний інтервал довіри перекрив справжнє значення, ніж ви робити ставку на монету вашого друга на 50:50 шанси ".
whuber

Гаразд, змінив його.
nigelhenry

2

Скажіть, що CI, який ви обчислили з конкретного набору даних, який ви маєте, є одним із 5% можливих ІС, які не містять середнього значення. Наскільки це близький до 95% достовірного інтервалу, який ви хотіли б собі уявити? (Тобто, наскільки це близько до вмісту середнього значення з 95% вірогідністю?) Ви не маєте впевненості, що воно зовсім близьке. Насправді, ваш ІС може не збігатися навіть з одним із 95% із 95% ІС, які насправді містять середнє значення. Не кажучи вже про те, що він не містить самого середнього, що також дозволяє припустити, що це не 95% достовірний інтервал.

Можливо, ви хочете проігнорувати це та оптимістично припустити, що ваш ІС є одним із 95%, який містить середнє значення. Гаразд, що ми знаємо про вашу ІС, враховуючи, що вона в 95%? Що вона містить середину, але, можливо, єдиний вихід на крайній план, виключаючи все інше з іншого боку середини. Не може містити 95% розподілу.

Так чи інакше, немає жодної гарантії, можливо, навіть розумної надії, що ваш 95% ІС - це 95% надійний інтервал.


Мені цікаво перший абзац. Можливо, я його неправильно читаю, але аргумент здається трохи не в розрізі з тим, що є кілька прикладів, в яких CI та достовірні інтервали співпадають для всіх можливих наборів спостережень. Що я пропустив?
кардинал

@cardinal: я можу помилятися. Я говорив про загальний випадок, але я здогадуюсь, що у випадку, коли CI та достовірний інтервал однакові, існують інші обмеження, такі як нормальність, які не дозволяють CI бути занадто далеко.
Уейн

Моя увага привертається найбільш сильно до останнього речення в абзаці; на прикладі збігових інтервалів мав на меті виділити точку. Ви можете подумати, чи вірно ви вірите в це речення чи ні. :)
кардинал

Ви маєте на увазі, що 95% ІС не означає, що 5% не включають середнє? Я повинен сказати, "за визначенням, не потрібно навіть містити саме середину"? Або я ще більше пропускаю?
Уейн

Уейн, як той факт, що певний інтервал не містить середнього, не дозволяє йому бути дійсним достовірним інтервалом? Я неправильно читаю це зауваження?
кардинал

2

(тобто друг перекидає справедливу монету, приховує результат, і мені заборонено сказати, що є 50% шансів, що це голови)

Якщо ви лише здогадуєтесь, що ваші друзі перевертають монети з 50% головами / хвостами, то ви не робите це правильно.

  • Вам слід спробувати швидко подивитися монету після / коли вона приземлиться і перш ніж приховати результат.
  • Також слід спробувати створити заздалегідь якусь апріорну оцінку справедливості монети.

Безумовно, правдоподібність ваших здогадок про перевернення монети буде залежати від цих умов і не завжди буде однаковою на 50% (іноді ваш метод «обману» може працювати краще).

Ваша загальна здогадка може бути, якщо ви обманюєте, x> 50% часу правильно, але це не обов'язково означає, що ймовірність кожного конкретного кидка постійно була х% головами. Тож було б трохи дивно проектувати свою загальну ймовірність на ймовірність конкретного кидка. Це інший "тип ймовірності".


Це трохи про те, до якого рівня або глибини ви вказуєте / визначаєте "ймовірність" .

  • Довіра не залежить від "конкретної ймовірності в конкретному експерименті / перевертання" і не залежить від "апріорної ймовірності" .

  • Впевненість полягає в ансамблі експериментів . Він побудований таким чином, що не потрібно знати апріорні ймовірності чи розподіли в сукупності.

  • Довіра - це приблизно загальний "коефіцієнт відмов" оцінки, але для конкретних випадків можна було б точніше вказати коливання ймовірності .

    ( Ці варіації ймовірності принаймні існують неявно , теоретично, і нам не потрібно знати, щоб вони існували. Але ми можемо явно виразити ці ймовірності, використовуючи байєсівський підхід).


Приклад 1:

p=0,99p=0,01

p0,05p10p0,95

Якщо у вас 1% населення хворий, то в середньому ви отримаєте 1,98% позитивного тесту (1% від 99% здорових людей тестують позитивно і 99% від 1% хворих людей тести позитивні). Це робить ваш інтервал 95% ІС (умовний), коли ви стикаєтеся з позитивним тестом , лише правильний 50% часу.

p

Приклад 2:

iN(мкi,σi2)мкi

мкiN(100,15)

(навпаки, це стосується людей, які мають результати, близькі до 100, їх IQ, ймовірно, буде більше, ніж 95% всередині 95% -CI, і це повинно компенсувати помилки, які ви робили в крайнощах, таким чином, що в кінці кінців ви маєте рацію у 95% випадків)


2

Спочатку дамо визначення інтервалу довіри або, у просторах розмірів, більших за один, довірчої області. Визначення є стислим варіантом того, що дав Єжи Нейман у своїй статті про Королівське товариство 1937 року.

pсpА(p,α)prоб(сА(p,α)|p=p,Я)=ααЯpс=сС(с,α)={p|сА(p,α)}

α

p

[pС(с,α)]prоб(с=с|p=p,Я)гс=[сА(p,α)]prоб(с=с|p=p,Я)гс=α

[pС(с,α)]pαppp

Ймовірність, щодо якої це очікування зазвичай помиляється, є ймовірною, умовною с=с

prоб(pС(с,α)|с=с,Я)=С(с,α)prоб(с=с|p=p,Я)prоб(p=p|Я)гpprоб(с=с|p=p,Я)prоб(p=p|Я)гp

Ця ймовірність зводиться до αЯА(p,α)сpp

prоб(pС(с,α)|с=с,Я)=С(с,α)prоб(с=p|p=с,Я)гpprоб(с=p|p=с,Я)гp=prоб(сС(с,α)|p=с,Я)=prоб(сА(с,α)|p=с,Я)

сА(с,α)сА(с,α) , тоді:

prоб(pС(с,α)|с=с,Я)=prоб(сА(с,α)|p=с,Я)=α

Приклад підручника з оцінки середньої сукупності із стандартним довірчим інтервалом, побудованим на основі нормальної статистики, є окремим випадком попередніх припущень. Тому стандартний 95% довірчий інтервал дійсно містить середнє значення з вірогідністю 0,95; але це листування, як правило, не дотримується.


-1

Тут є кілька цікавих відповідей, але я подумав, що я додам трохи практичної демонстрації за допомогою R. Ми нещодавно цей код використовували в курсі статистики, щоб виділити, як працюють інтервали довіри. Ось що робить код:

1 - це вибірки з відомого розподілу (n = 1000)

2 - Він обчислює 95% ІС для середнього значення кожного зразка

3 - Він запитує, чи включає в себе ІСІ кожного зразка справжню середню.

4 - Він повідомляє в консолі частку CI, яка включала справжню середню.

Я просто запускав сценарій ще чимало разів, і насправді не надто рідко було виявити, що менше 94% КІ містили справжню середню. Принаймні, мені це допомагає розвіяти думку про те, що довірчий інтервал має 95% вірогідність містити справжній параметр.

#   In the following code, we simulate the process of
#   sampling from a distribution and calculating
#   a confidence interval for the mean of that 
#   distribution.  How often do the confidence
#   intervals actually include the mean? Let's see!
#
#   You can change the number of replicates in the
#   first line to change the number of times the 
#   loop is run (and the number of confidence intervals
#   that you simulate).
#
#   The results from each simulation are saved to a
#   data frame.  In the data frame, each row represents
#   the results from one simulation or replicate of the 
#   loop.  There are three columns in the data frame, 
#   one which lists the lower confidence limits, one with
#   the higher confidence limits, and a third column, which
#   I called "Valid" which is either TRUE or FALSE
#   depending on whether or not that simulated confidence
#   interval includes the true mean of the distribution.
#
#   To see the results of the simulation, run the whole
#   code at once, from "start" to "finish" and look in the
#   console to find the answer to the question.    

#   "start"

replicates <- 1000

conf.int.low <- rep(NA, replicates)
conf.int.high <- rep(NA, replicates)
conf.int.check <- rep(NA, replicates)

for (i in 1:replicates) {

        n <- 10
        mu <- 70
        variance <- 25
        sigma <- sqrt(variance)
        sample <- rnorm(n, mu, sigma)
        se.mean <- sigma/sqrt(n)
        sample.avg <- mean(sample)
        prob <- 0.95
        alpha <- 1-prob
        q.alpha <- qnorm(1-alpha/2)
        low.95 <- sample.avg - q.alpha*se.mean
        high.95 <- sample.avg + q.alpha*se.mean

        conf.int.low[i] <- low.95
        conf.int.high[i] <- high.95
        conf.int.check[i] <- low.95 < mu & mu < high.95
 }    

# Collect the intervals in a data frame
ci.dataframe <- data.frame(
        LowerCI=conf.int.low,
        UpperCI=conf.int.high, 
        Valid=conf.int.check
        )

# Take a peak at the top of the data frame
head(ci.dataframe)

# What fraction of the intervals included the true mean?
ci.fraction <- length(which(conf.int.check, useNames=TRUE))/replicates
ci.fraction

    #   "finish"

Сподіваюся, це допомагає!


2
Вибачте за критику, але мені довелося (тимчасово) відхилити цю відповідь. Я вважаю, що це нерозуміння значення інтервалу довіри, і я щиро сподіваюся, що це не аргумент, який використовується у вашому класі. Моделювання зводиться до (досить досконалого) експерименту вибірки бінома.
кардинальний

5
1-α=0,95

4
"Менше 94%" у вибірці з 1000 КІ, безумовно, не є вагомим доказом проти ідеї, що 95% ІС містять середнє значення. Насправді, я б очікував, що 95% ІС дійсно містять середнє значення в цьому випадку.
Рональд

3
@Ronald: Так, це був саме мій погляд із коментарями, але ви сказали це набагато простіше і стисліше. Дякую. Як зазначено в одному з коментарів, ви побачите 940 успіхів або менше приблизно 8,7% часу, і це справедливо для будь-яких точно 95% ІС, які можна побудувати протягом 1000 експериментів. :)
кардинал

2
@JamesWaters: Дякуємо, що знайшли час для відповіді. Код нормальний, але я не бачу, як він "демонструє випадки, коли він неправильний". Чи можете ви пояснити цей намір? Я все ще підозрюю, що тут може виникнути принципове непорозуміння. Ви, здається, розумієте, що я CI, і як правильно його інтерпретувати, але імітаційний експеримент не відповідає на питання, на яке ви, схоже, заявляєте, що на нього відповідає. Я думаю, що ця відповідь має потенціал, тому я хотів би побачити, що вона закінчилася приємною редакцією, щоб уточнити точку, яку ви намагаєтеся подолати. Ура. :)
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.