Коли корисні інтервали довіри?


30

Якщо я правильно розумію, довірчий інтервал параметра - це інтервал, побудований методом, який дає інтервали, що містять справжнє значення для визначеної пропорції вибірки. Отже, «впевненість» - це скоріше про метод, а не про інтервал, який я обчислюю з певної вибірки.

Як користувач статистики я завжди відчував себе обдуреним, оскільки простір усіх вибірок гіпотетичний. Все, що у мене є, є одним зразком, і я хочу знати, що цей зразок говорить мені про параметр.

Це судження неправильне? Чи існують способи перегляду довірчих інтервалів, принаймні в деяких обставинах, які були б корисними для користувачів статистики?

[Це запитання виникає з другої думки після відхилення інтервалів довіри у відповіді math.se https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

Відповіді:


15

Мені подобається думати про КІ як про якийсь спосіб уникнути рамки тестування гіпотез (HT), принаймні, бінарної системи прийняття рішень за підходом Неймана , і якимось чином підтримую теорію вимірювання. Точніше, я розглядаю їх як більш близькі до надійності оцінки (різниця засобів, наприклад), і, навпаки, HT більш близькі до гіпотетико-дедуктивних міркувань з його підводними помилками (ми не можемо прийняти нуль, альтернативою є часто стохастичні тощо). І все ж, і з інтервальною оцінкою, і з HT, ми мусимо більшу частину часу покладатися на припущення щодо розподілу (наприклад, розподіл вибірки під ), що дозволяє зробити висновок з нашої вибірки загальній сукупності або репрезентативному (принаймні в частістський підхід).H0

H0

alt текст

тобто в рамках HT (ліворуч) ви дивитесь, наскільки ваша статистика знаходиться від нуля, тоді як при CI (справа) ви дивитесь на нульовий ефект "зі своєї статистики", в певному сенсі.

Також зауважте, що для певного виду статистичних даних, таких як коефіцієнт шансів, HT часто є безглуздим, і краще подивитися на пов'язаний з ним ІС, який є асиметричним, і надати більш релевантну інформацію щодо напрямку та точності об'єднання, якщо такі є.


Чому, на вашу думку, тести на гіпотезу часто не мають сенсу для коефіцієнтів шансів, більше, ніж будь-яка інша оцінка ефекту? Натомість наголошую, що довірчі інтервали є кориснішими, ніж стандартні помилки для коефіцієнтів шансів та інші оцінки при асиметричному розподілі вибірки в кінцевих вибірках.
onestop

@onestop Добре, я частково думав про те, що ви говорите про "асиметричні розподіли відбору проб ..." (і, здається, я не був настільки зрозумілий), а також про те, що в епідеміологічних дослідженнях ми, як правило, найбільше зацікавлені в ІС (що є наскільки точнішою є наша оцінка), ніж HT.
chl

+1. Це нагадує мені, що я використовував ваші сценарії, щоб вивчити асимптотику, стрибаючи і міняючи речі, пробуючи різні речі. Ще раз дякую за це, дуже корисно для початку.
АРС

@ars Власне, я, мабуть, пам’ятаю, що ця фотографія була зроблена за допомогою PStricks. У будь-якому випадку, хороша відправна точка для Асимптоти - piprime.fr/asymptote .
chl

@chl, це може бути поза темою, але ви можете, будь ласка, сказати мені, якщо ви склали ці графіки в R?
suncoolsu

7

Альтернативний підхід, відповідний вашому другому запитанню: "Чи існують способи перегляду інтервалів довіри, принаймні в деяких обставинах, які мають значення для користувачів статистики?":

Вам слід поглянути на байєсівські умовиводи та отримані достовірні інтервали . 95% достовірний інтервал можна інтерпретувати як інтервал, який, на вашу думку, має 95% вірогідність включення істинного значення параметра. Ціна, яку ви платите, полягає в тому, що вам потрібно встановити попередній розподіл ймовірностей на ті величини, на які ви вважаєте, що вірогідний параметр, швидше за все, прийме до збору даних. І ваш попередній може відрізнятися від чужого попереднього, тому ваші отримані достовірні інтервали можуть також відрізнятися, навіть якщо ви використовуєте ті самі дані.

Це лише моя швидка і жорстка спроба підвести підсумки! Хороший недавній підручник з практичним спрямуванням:

Ендрю Гельман, Джон Б. Карлін, Хал С. Стерн та Дональд Б. Рубін. "Байєсівський аналіз даних" (2-е видання). Chapman & Hall / CRC, 2003. ISBN 978-1584883883


Спасибі. А як щодо конкретних інтервалів довіри конкретно? Чи є взагалі якісь обставини, коли вони були б актуальними?
Jyotirmoy Bhattacharya

Я вважаю, що різні пріори - це не проблема (принаймні, з об'єктивної байєсівської точки зору), якщо трапляється, що у вас є різні знання про ситуацію. Ми хотіли бачити пріорі як спосіб передачі нашої апріорної інформації. Я знаю, що це не просто ...
Teucer

@Jyotirmoy Про байесовский проти підходів частотний, були зроблені тут цікаві моменти: stats.stackexchange.com/questions/1611 / ...
хл

6

Я думаю, що передумова цього питання є помилковою, оскільки воно заперечує різницю між невизначеним та відомим .

Опис флігеля монети забезпечує хорошу аналогію. До того, як монета буде перевернута, результат невизначений; згодом це вже не "гіпотетично". Плутанина цього факту відповідає дійсній ситуації, яку ми хочемо зрозуміти (поведінка монети або рішення, які мають бути прийняті в результаті її результату), по суті, заперечує роль вірогідності в розумінні світу.

Цей контраст кидається з різким полегшенням на експериментальній чи регуляторній арені. У таких випадках вчений чи регулятор знають, що вони зіткнуться із ситуаціями, результати яких у будь-який час заздалегідь невідомі, але вони повинні прийняти важливі визначення, наприклад, як створити експеримент або встановити критерії, які слід використовувати для визначення відповідності правилам (для тестування на наркотики, безпеки на робочому місці, екологічних норм тощо). Цим людям та установам, для яких вони працюють, потрібні методи та знання ймовірнісних характеристик цих методів , щоб розробити оптимальні та захищаючі стратегії, такі як хороші експериментальні проекти та справедливі процедури прийняття рішень, які якнайменше помиляються.

Інтервали довіри, незважаючи на їх класично погане обґрунтування, вписуються в цю теоретичну рамку прийняття рішень. Коли метод побудови випадкового інтервалу має поєднання хороших властивостей, таких як забезпечення мінімального очікуваного покриття інтервалу та мінімізація очікуваної тривалості інтервалу - обидва вони апріорні властивості, а не апостеріорні - потім над Тривала кар'єра використання цього методу, ми можемо мінімізувати витрати, пов'язані з діями, які вказані цим методом.


Наведіть приклад використання довірчого інтервалу для прийняття рішення. Або, ще краще, порівняйте два інтервали довіри та те, як ви приймете різні рішення з кожним із них, дотримуючись цілком у частофілістських рамках.
BrainPermafrost

@Brain Будь-який вступний підручник із статистикою наводить такі приклади. Тим, хто не настирливо є частолюбцем, є Фрідман, Пісані та Первес, Статистика (будь-яке видання).
качан

6

Ви вірно стверджуєте, що 95% довірчі інтервали - це те, що є результатом використання методу, який працює в 95% випадків, а не будь-якого окремого інтервалу, що має 95% ймовірність містити очікуване значення.

"Логічна основа та інтерпретація меж довіри - це навіть питання суперечки". {Девід Колхуун, 1971 р., Лекції з біостатистики}

Ця цитата взята з підручника зі статистики, опублікованого в 1971 році, але я заперечую, що це все-таки вірно в 2010 році. Суперечка, мабуть, найбільш екстремальна у випадку довірчих інтервалів для біноміальних пропорцій. Існує багато конкуруючих методів для обчислення цих довірчих інтервалів, але всі вони є неточними в одному або декількох сенсах, і навіть найгірший метод роботи є прихильниками серед авторів підручників. Навіть так звані "точні" інтервали не дають властивостей, очікуваних довірчих інтервалів.

У документі, написаному для хірургів (широко відомий своїм інтересом до статистики!), Джон Лудбрук і я стверджували про рутинне використання інтервалів довіри, обчислених за допомогою рівномірного байєсівського раніше, оскільки такі інтервали мають властивості часто, як і будь-який інший метод (в середньому точно 95% покриття за всі справжні пропорції), але, що важливо, набагато краще покриття за всі спостережувані пропорції (рівно 95% покриття). Стаття, оскільки її цільова аудиторія не є дуже докладною, тому вона може не переконати всіх статистиків, але я працюю над подальшим документом з повним набором результатів та обґрунтування.

Це випадок, коли байєсівський підхід має настільки ж хороші властивості, як і частістський підхід, що трапляється досить часто. Припущення про рівномірне попереднє не є проблематичним, оскільки рівномірний розподіл пропорцій населення вбудований у кожен розрахунок частотистського покриття, на який я стикався.

Ви запитуєте: "Чи існують способи перегляду інтервалів довіри, принаймні в деяких обставинах, які були б корисні для користувачів статистики?" Моя відповідь, таким чином, полягає в тому, що для біноміальних довірчих інтервалів можна отримати інтервали, які містять частку сукупності рівно 95% часу за всіх спостережуваних пропорцій. Це так. Однак звичайне використання інтервалів довіри очікує покриття всіх пропорцій населення, і на це відповідь "Ні!"

Тривалість відповідей на ваше запитання та різні відповіді на них свідчать про те, що інтервали довіри широко не зрозуміли. Якщо ми змінимо нашу ціль від покриття для всіх істинних значень параметрів до покриття справжнього значення параметра для всіх значень вибірки, це може стати простіше, оскільки інтервали потім будуть формуватися безпосередньо для спостережуваних значень, а не для продуктивності метод сам по собі.


5

Це чудова дискусія. Я відчуваю, що достовірні інтервали Байєса та вірогідні інтервали підтримки - це шлях, а також байєсівські задні ймовірності виникнення цікавих подій (наприклад, препарат є ефективним). Але витіснення P-значень з довірчими інтервалами - головне посилення. Практично в кожному випуску кращих медичних журналів, таких як NEJM та JAMA, є статті з темою "відсутність доказів не є свідченням відсутності" у своїх рефератах. Використання довірчих інтервалів значною мірою запобіжить подібні помилки. Чудовий маленький текст http://www.amazon.com/Statistics-Confidence-Intervals-Statistic-Guidelines/dp/0727913751


3

Щоб вирішити своє питання безпосередньо: Припустимо, ви роздумуєте про використання машини для наповнення ящика з зерновими певною кількістю крупи. Очевидно, ви не хочете переповнювати / недоповнювати коробку. Ви хочете оцінити надійність машини. Ви виконуєте серію тестів так: (a) Використовуйте машину для заповнення коробки та (b) Виміряйте кількість крупи, яка заповнена у коробці.

Використовуючи зібрані дані, ви будуєте довірчий інтервал для кількості крупи, яку машина, ймовірно, заповнить у вікні. Цей довірчий інтервал говорить нам про те, що отриманий нами інтервал має 95% ймовірність того, що він буде містити справжню кількість зернових, яку машина помістить у коробку. Як ви кажете, інтерпретація довірчого інтервалу покладається на гіпотетичні, невидимі зразки, згенеровані розглянутим методом. Але, саме цього ми хочемо в нашому контексті. У наведеному вище контексті ми будемо використовувати машину кілька разів, щоб заповнити коробку, і таким чином ми піклуємося про гіпотетичні, небачені усвідомлення кількості зерна, яку машина заповнює у коробці.

Щоб відмовитися від вищезазначеного контексту: інтервал довіри дає нам гарантію, що якщо ми неодноразово використовували досліджуваний метод (у наведеному вище прикладі метод = машина), є 95% ймовірність того, що інтервал довіри матиме справжній параметр .


2
μσ2μ

1
@ Jyotirmoy Звичайно, конкретна ІС може бути відмовою. Іншими словами, існує 5% шансів, що ІС не містить справжнього значення. Тим не менш, тлумачення, яке я дав, узгоджується з тим, як насправді будуються КІ. Ми уявляємо, що використовуємо метод повторно, і побудуємо CI таким чином, що ймовірність того, що спостережуваний CI містить справжнє значення, дорівнює 0,95. Зауважте, що моя відповідь нічого не говорить про ймовірність того, де насправді лежить справжня цінність, оскільки це твердження, яке можна робити лише з достовірними інтервалами, а не з довірчими інтервалами.

1
(100α)H0tz

@Srikant. Я, можливо, неправильно зрозумів "метод = машина" у відповіді. Я думав, ви говорите, що 95% усіх ящиків, що виходять із складальної лінії, матимуть ваги в межах довірчого інтервалу 95%, отриманого з певного зразка ящиків.
Jyotirmoy Bhattacharya
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.