Що довірчі інтервали говорять про точність (якщо вона є)?


31

Morey et al (2015) стверджують, що інтервали довіри вводять в оману і є багато ухилів, пов'язаних з їх розумінням. Серед іншого вони описують точність помилок таким чином:

Точність помилок
Ширина довірчого інтервалу вказує на точність наших знань про параметр. Вузькі інтервали довіри показують точні знання, тоді як широкі довірчі помилки показують неточні знання.

Немає необхідного зв’язку між точністю оцінки та розміром довірчого інтервалу. Один із способів побачити це - уявити двох дослідників - старшого наукового співробітника та аспіранта - аналізують дані учасників експерименту. Як вправу на користь доктора, старший науковий співробітник вирішує випадковим чином розділити учасників на два набори по 25, щоб кожен міг окремо проаналізувати половину набору даних. В одному з наступних засідань, два поділитися один з одним їх Учнівські т довірчі інтервали для середнього значення. 95 % ДІ докторанта - 52 ± 2 , а старшого наукового співробітника - 95 %5025t95%52±295%CI - .53±4

Старший науковий співробітник зазначає, що їх результати в цілому послідовні, і що вони могли використовувати однаково зважене середнє для двох відповідних бальних оцінок, , як загальну оцінку справжнього середнього.52.5

Однак докторант стверджує, що їх два засоби не повинні бути зваженими рівномірно: вона зазначає, що її ІС наполовину ширша, і стверджує, що її оцінка є більш точною і, таким чином, повинна бути зважена більше. Її радник зазначає, що це не може бути правильним, оскільки оцінка нерівномірно зважування двох засобів буде відрізнятися від оцінки від аналізу повного набору даних, який повинен бути . Помилка докторанта припускає, що ІС безпосередньо вказують на точність після передачі даних.52.5

Наведений вище приклад здається хибним. Якщо ми навмання розділимо вибірку навпіл, на дві вибірки, то ми очікуємо, що і вибіркові засоби, і стандартні помилки будуть близькими. У такому випадку не повинно бути різниці між використанням зваженого середнього (наприклад, зваженого зворотними помилками) та використанням простого середнього арифметичного. Однак якщо оцінки відрізняються, а помилки в одному з вибірок помітно більше, це може підказати "проблеми" з такою вибіркою.

Очевидно, що у вищенаведеному прикладі розміри вибірки однакові, тому "з'єднання" даних шляхом взяття середнього засобу те саме, що взяття середнього значення для всієї вибірки. Проблема полягає в тому, що весь приклад слідує неправильно визначеній логіці, що зразок спочатку розділяється частинами, а потім знову з'єднується для остаточної оцінки.

Приклад можна переформулювати, щоб привести до прямо протилежного висновку:

Дослідник та студент вирішили розділити свій набір даних на дві половини та проаналізувати їх самостійно. Згодом вони порівняли свої оцінки, і виявилося, що вибірка означає, що їх обчислення були дуже різними, до того ж стандартна помилка оцінки студента була значно більшою. Студент побоювався, що це може запропонувати питання з точністю його оцінки, але дослідник мав на увазі відсутність зв'язку між довірчими інтервалами та точністю, тому обидві оцінки однаково достовірні, і вони можуть публікувати будь-яку з них, вибрану випадковим чином, як їх остаточна оцінка.

t

x¯±c×SE(x)

c

Отже, моє запитання таке:
чи точність помилок насправді є помилкою? Що довірчі інтервали говорять про точність?


Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). Помилковість довіри до довірчих інтервалів. Психономічний вісник та огляд, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/


2
Я припускаю, що якщо точність визначена як зворотна дисперсія, то ширина цих КІ відображає лише оцінку точності. Приблизно, як ширина байєсівського достовірного інтервалу для середнього значення відображала б невизначеність щодо точності.
Scortchi

@Scortchi, то це ще один спосіб сказати, що частістські методи взагалі ненадійні ..?
Тім

7
7.5/25=5±3

@StephanKolassa Я зробив абсолютно те саме моделювання, яке призводить до абсолютно таких же висновків - ось як постало питання :)
Тім

2
@Tim: Я не знаю, на що вони намагаються досягти: якщо справжня точність оцінки середнього значення мислиться як функція невідомого значення параметра, спільного для двох підпроборів, то я не думаю, що хтось буде проти визнати, що різниця в ширині цих двох інтерфейсів не відображає різниці в точності оцінок (якщо вони не сумнівалися в процедурі піддиагностики). Враховуючи властивості покриття КІ, що обумовлюються спостережуваним коефіцієнтом варіації, може бути кращою тактикою.
Scortchi

Відповіді:


16

У роботі ми фактично демонструємо точність помилок у кількох напрямках. Той, про кого ви питаєте - перший у статті, - приклад призначений для того, щоб продемонструвати, що спрощена "CI = точність" є неправильною. Це не означає, що будь-який компетентний частоліст, баєс або ймовірність би це збентежив.

Nx¯s2s2σ2

Щодо інших демонстрацій точності помилок, див

  • множинні ІС у розділі Welch (1939) (підводний човен), один з яких включає "тривіальну" CI, згадану вище @dsaxton. У цьому прикладі оптимальний ІС не відслідковує ширину ймовірності, і є кілька інших прикладів ІС, які також не виконують.
  • Те, що КІ - навіть "хороші" КІ можуть бути порожніми, "помилково" свідчить про нескінченну точність

Відповідь на загадку полягає в тому, що "точність", принаймні в тому, як прихильники ІП думають про це (післяекспериментальна оцінка того, наскільки "близькою" оцінкою є параметр), просто не є характеристикою, яку мають взагалі довірчі інтервали. , і вони не були призначені. Конкретні процедури довіри можуть ... чи ні.

Дивіться також дискусію тут: http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591


7
(+1) Приємно почути від фактичного автора! Я погоджуюсь, що у CI є кілька філософських питань, як і ВСІ форми висновків (просто різні питання) ... Мені подобається, як ви вказали, що це конкретна процедура довіри, яку вам потрібно враховувати, а не тільки те, що це КІ на таких і такого рівня.

4
(+1) Дякуємо за вашу відповідь! Я погоджуюся з аргументами, які ви стверджуєте у своєму документі, що CI не повинні нічого говорити про точність, проте, називаючи це помилкою, створюється враження, що ви вказуєте, що вони нічого не говорять про точність - і це не те саме ... Більше того: на ваш погляд, це проблема "точності помилок" в аналізі реального життя ..? Я погоджуюсь, що неправильне тлумачення ІП є, але в цьому випадку я не дуже впевнений ...
Тім

2
Вплив "реального життя" важко піддавати кількісній оцінці, особливо, якщо не можна говорити про вплив у конкретному сценарії аналізу чи в різних галузях. Якщо просто обчислити КІ на гауссі, то помилка не надто небезпечна. Але розглянемо список посилань на p117 (пункт. Починається з "Наскільки часто відбуватиметься процедура довіри Steiger ..."). Інтервали в цих опублікованих статтях, ймовірно, "занадто" вузькі. Помилковість має й інші наслідки: недостатня ретельність щодо генераторів нових процедур ІС (перевірити будь-який папір з новим ІС), небажання аналітиків відходити від гауссових припущень, коли це потрібно, та інші.
richarddmorey

Мене мучать ці парантези. Що це за «підводний човен»?
Супербест

1
θ

13

Перш за все, давайте обмежимось процедурами ІС, які створюють лише інтервали зі строго позитивною, кінцевою шириною (щоб уникнути патологічних випадків).

У цьому випадку теоретично можна продемонструвати взаємозв'язок між точністю та шириною CI. Візьміть середню оцінку (коли вона існує). Якщо середній показник середнього рівня дуже вузький, то у вас є дві інтерпретації: або у вас була невдача, і ваш зразок був занадто щільно збитий (апріорі 5% шанс того, що трапиться), або ваш інтервал покриває справжню середню (95% апріорний шанс). Звичайно, спостережуваний ІС може бути будь-яким із цих двох, але ми налаштували наш розрахунок так, що останній набагато частіше має місце (тобто, 95% шансів апріорі) ... отже, ми маємо високий ступінь з довірищо наш інтервал охоплює середнє значення, тому що ми встановлюємо речі ймовірнісно, ​​тому це так. Таким чином, 95% ІС не є інтервалом вірогідності (як байєсівський достовірний інтервал), а більше схожий на "довіреного радника" ... того, хто, статистично, має рацію 95% часу, тому ми довіряємо їх відповідям, хоча будь-яка конкретна відповідь цілком може бути помилковою.

У 95% випадків, коли він охоплює фактичний параметр, то ширина повідомляє вам щось про діапазон правдоподібних значень з урахуванням даних (тобто, наскільки добре ви можете зв'язати справжнє значення), отже, він діє як міра точності . У 5% випадків, коли цього немає, то ІП вводить в оману (оскільки зразок вводить в оману).

Отже, чи відповідає 95% ширина CI точність ... Я б сказав, що це 95% шанс (за умови, що ваша ширина CI є позитивно-кінцевою) ;-)

Що таке розумний КІ?

У відповідь на публікацію оригіналу автора я переглянув свою відповідь на (а), врахував, що приклад "розділеного зразка" мав дуже конкретну мету, і (б) надати ще деякі відомості, про що вимагає коментатор:

В ідеальному (частістському) світі, всі розподіли вибірки визнають ключову статистику, яку ми могли б використати для отримання точних довірчих інтервалів. Що так чудово в ключовій статистиці? Їх розподіл можна отримати, не знаючи фактичного значення оцінюваного параметра! У цих приємних випадках ми маємо точний розподіл нашої вибіркової статистики щодо істинного параметра (хоча він може і не бути гауссом) щодо цього параметра.

Коротше кажучи: ми знаємо розподіл помилок (або якесь їх перетворення).

Саме ця якість деяких оцінювачів дозволяє формувати розумні довірчі інтервали. Ці інтервали не просто задовольняють їх визначенням ... вони роблять це в силу отриманого від фактичного розподілу помилки оцінки.

Гауссова розподіл і пов'язана з ним Z-статистика є канонічним прикладом використання основної величини для розробки точного CI для середнього. Є більше езотеричних прикладів, але це, як правило, той, який мотивує "велику вибіркову теорію", що в основному є спробою застосувати теорію, що стоїть за Гауссовими КІ, до розподілів, які не визнають справжньої основної величини. У цих випадках ви читатимете про орієнтовні чи асимптотично основні (у розмірі вибірки) величини або "приблизні" довірчі інтервали ... вони засновані на теорії ймовірності - конкретно, на тому, що розподіл помилок для багатьох MLE підходить до нормального розподілу.

Інший підхід для формування розумних КІ - це "перевернути" тест на гіпотезу. Ідея полягає в тому, що "хороший" тест (наприклад, UMP) призведе до хорошої (читайте: вузької) ІС для заданого рівня помилок типу I. Вони, як правило, не дають точного покриття, але забезпечують нижню межу покриття (зверніть увагу: фактичне визначення X% -CI говорить лише, що воно повинно охоплювати істинний параметр принаймні X% часу).

Використання гіпотезних тестів безпосередньо не вимагає основної кількості чи розподілу помилок - її чутливість виходить із чутливості основного тесту. Наприклад, якби у нас був тест, область відхилення якого мала тривалість 0 5% часу і нескінченну довжину 95% часу, ми б повернулися туди, де ми були з КІ - але очевидно, що цей тест не є залежать від даних, а отже, не надаватимуть ніякої інформації про базовий параметр, який тестується.

Ця більш широка ідея - що оцінка точності повинна бути обумовлена ​​даними, сходить до Фішера та ідеї допоміжної статистики. Ви можете бути впевнені, що якщо результат вашої процедури тестування або ІС НЕ обумовлюється даними (тобто його умовна поведінка є такою ж, як і безумовна поведінка), то у вас є сумнівний метод.


2
Було б чудово, якби ви могли детальніше розглянути те, що ви додали у "Примітці". Це я думаю, що суть усієї дискусії: можна розробити дуже дивні, але дійсні частолістські процедури побудови КІ, при яких ширина CI не має ніякого відношення до жодної точності. Звідси можна стверджувати, як Морей та ін. робити, що КІ введено в оману в принципі. Я згоден з вами, що часто використовувані процедури ІС є більш розумними, ніж це, але потрібно чітко визначити, що робить їх такими.
амеба каже, що поверніть Моніку

@amoeba Я додав ще пояснення, чому не всі CI створені рівними ... Основна ідея - це допоміжність, друга - роль розподілу помилок (або наближення до нього)

Дякуємо за оновлення. Одна річ , яку я до сих пір не знаходять дуже ясно в своїй відповіді, що в першому абзаці ви не говорите нічого про ширину CI; ви просто говорите про те, що містить або не містить справжнього параметра сукупності. Все там правильно навіть у "патологічних" випадках. Тоді ви говорите, що так, ширина вказує на точність, але ви не наводили жодних аргументів для цього (на той момент). У подальшому обговоренні ви все-таки пояснюєте це.
амеба каже, що поверніть Моніку

@amoeba Я думаю, мій пост міг би зробити трохи більше форматування. Основна логіка полягає в цьому (якщо припустимо, що ми використовуємо "розумну" процедуру CI, як я окреслюю): апріорно існує 95% шанс, що інтервал буде містити справжній параметр. Після того як ми збираємо дані, ми маємо фактичний інтервал (кінцева, ненульова ширина). ЯКЩО він містить істинний параметр, то ширина виражає діапазон правдоподібних значень, який він може бути, отже, ширина обмежує діапазон параметра. ЗАРАЗ, у 5% випадків, коли інтервал не містить значення, інтервал вводить в оману.

@amoeba оновлений пост, щоб краще підкреслити зв’язок між шириною CI та точністю.

8

{x1,x2,,xn}(μ,σ2)μ(,){0}на основі перевертання упередженої монети. Використовуючи правильне зміщення, ми можемо отримати будь-який рівень впевненості, який нам подобається, але очевидно, що наш інтервал «оцінка» взагалі не має точності, навіть якщо ми закінчимо інтервал, що має нульову ширину.

Причина , чому я не думаю , що ми повинні дбати про це очевидне омані, що , хоча це правда , що немає ніякої необхідної зв'язку між шириною довірчого інтервалу і точністю, то є майже універсальна зв'язок між стандартними помилками і точністю, і в у більшості випадків ширина довірчого інтервалу пропорційна стандартній помилці.

σ


Хороший момент щодо випадково нескінченних КІ ... безумовно, показують, що впевненість - це інше поняття, ніж точність. Я, мабуть, мав би сказати свою відповідь, сказавши, що я припускаю, що на основі ймовірності визначається ІС, де ширина пов'язана з кривизною ймовірності журналу, що є наближенням стандартної помилки ... Ваш пост вказує, що є КІ, які технічно досягають висвітлення, але дуже контрінтуїтивним способом.

Пов'язане питання (хоч і дуже цікаве) - це відповідні підмножини для ІП ... наприклад, якщо ви вказуєте на додаткові статистичні дані, ваше покриття CI може змінитися (справа в тому, що умовне покриття інтервалу t зміни, засновані на мінливості вашої вибірки). Ось посилання на статтю: jstor.org/stable/2242024?seq=1#page_scan_tab_contents

@Bey У цьому документі є ще один менш крайній приклад із участю підводного човна: webfiles.uci.edu/mdlee/fundamentalError.pdf . Це цікаво, але знову ж таки здається, що трапляється інтерпретація, яку не зробить жодна розумна людина.
dsaxton

Домовились .... не можу залишити здоровий глузд у дверях із статистикою ... навіть у

1
@richarddmorey: Гаразд, бачу. Тоді це була просто нещасна постановка! Я її не виймав із контексту спеціально; Я чесно прочитав це речення як підсумок та узагальнення до будь-якої ситуації (не усвідомлюючи, що "в тому прикладі" було припущено в цьому реченні). Спробуйте залишити коментар із уточненням в тій іншій темі з моїм звинуваченням (що вже отримало кілька відгуків).
амеба каже, що повернеться до Моніки

4

Я думаю, що чітке розмежування між "довірчими інтервалами" та "точністю" (див. Відповідь від @dsaxton) є важливим, оскільки це відмінність вказує на проблеми спільного використання обох термінів.

Цитування з Вікіпедії :

Точність вимірювальної системи, пов’язана з відтворюваністю та повторюваністю, - це ступінь, в якому багаторазові вимірювання в незмінних умовах показують однакові результати.

Таким чином, можна стверджувати, що частості довірчі інтервали дійсно представляють собою тип точності схеми вимірювання . Якщо повторити ту саму схему, 95% ІС, обчислений для кожного повторення, буде містити одне справжнє значення параметра в 95% повторень.

Однак це не те, чого багато людей хочуть з практичної міри точності. Вони хочуть знати, наскільки близька вимірювана величина до справжнього значення . Частотні довірчі інтервали не суворо забезпечують цю міру точності. Басейські достовірні регіони.

Деякі плутанини полягають у тому, що на практичних прикладах періодичні довірчі інтервали та достовірні байєсські регіони "більш-менш перетинаються" . Вибірка із звичайного розподілу, як у деяких коментарях до ОП, є таким прикладом. Це також може бути на практиці для деяких більш широких типів аналізів, про які мав на увазі @Bey, на основі наближень до стандартних помилок у процесах, які мають нормальні розподіли в межах.

Якщо ви знаєте, що ви перебуваєте в такій ситуації , то, можливо, не буде жодної практичної небезпеки при інтерпретації конкретної 95% ІС від однієї реалізації схеми вимірювання як такої, що має 95% ймовірність містити справжнє значення. Однак інтерпретація довірчих інтервалів не походить від частолістської статистики, для якої справжнє значення або є, або не знаходиться в цьому конкретному інтервалі.

Якщо інтервали довіри та достовірні регіони помітно різняться, то баєсівська інтерпретація частолістських інтервалів довіри може бути оманливою або помилковою, як свідчить викладений вище документ та попередня література. Так, "здоровий глузд" може допомогти уникнути подібних неправильних тлумачень, але, на мій досвід, "здоровий глузд" не такий поширений.

Інші сторінки CrossValided містять набагато більше інформації про довірчі інтервали та відмінності між довірчими інтервалами та надійними регіонами . Посилання з цих сторінок також є досить інформативними.


Це хороший момент .... Я думаю, що найближчі думки до загальної інтерпретації "точності" більше схожі на помилку RMS. Незаангажована, але сильно змінна оцінка вважається не кращою, ніж низька варіабельність, але дуже упереджена оцінка ... і те й інше не може покладатися на оцінку, близьку до справжнього значення.

+1, але я не впевнений, що поділяю ваш песимістичний погляд на "здоровий глузд". Існує велика цитата з Джеффріз про «здоровий глузд» в статистиці частотної: I have in fact been struck repeatedly in my own work, after being led on general principles to the solution of a problem, to find that Fisher had already grasped the essentials by some brilliant piece of common sense.
амеба каже, що повернеться до Моніки

@amoeba вважає твердження Лапласа про те, що "теорія ймовірності - це не що інше, як здоровий глузд, зведений до обчислення". З того часу зусилля, присвячені теорії ймовірностей, принаймні показують, що наслідки здорового глузду не завжди очевидні.
EdM

@amoeba: Фішер відхилив CI і визначив Fisher як freq-ist. вводить в оману. Його логіка інтервалів (довідна) була схожа на obj. Байєса, і він ототожнює ймовірність з раціональною невизначеністю. Він говорить про це: "Іноді стверджується, що фідуціальний метод, як правило, призводить до тих же результатів, що і метод [КІ]. Важко зрозуміти, як це може бути, оскільки твердо встановлено, що метод впевненості інтервали не призводять до тверджень про ймовірність щодо параметрів реального світу, тоді як для цього існує довірений аргумент ". (Fisher, 1959)
richarddmorey

@richard, Дякую за роз’яснення. Відомо, що Фішер говорив суперечливі речі протягом своєї довгої кар’єри і кілька разів змінив свою думку. Я не дуже знайомий з його довідницькою теорією, тому не можу це коментувати. Моє несвідоме припущення було те, що Джеффріс у цій цитаті мав на увазі "частістський період" Фішера, але я не маю доказів для цього. В моєму (обмеженому!) Досвіді ніхто ніколи не використовує фідуціальні умовиводи. Ніхто. Колись. Тоді як часті методи застосовуються постійно, і багато хто повертається до Фішера. Отже, асоціація існує в моїй свідомості.
амеба каже, що повернеться до Моніки

1

@Bey має. Немає необхідного зв’язку між показниками та характеристиками, ані ціною та якістю, ані запахом та смаком. І все ж один зазвичай інформує про інше.

Індукцією можна довести, що не можна давати естрадну вікторину. При ретельному розгляді це означає, що не можна гарантувати, що вікторина - сюрприз. І все-таки більшість часу це буде.

Можливо, Морі та ін показують, що існують випадки, коли ширина неінформативна. Хоча цього достатньо для твердження "Немає необхідного зв'язку між точністю оцінки та величиною довірчого інтервалу", недостатньо для подальшого висновку, що КІ, як правило, не містять інформації про точність. Просто те, що вони не гарантують цього.

(Недостатньо вказує на відповідь + @ Бея.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.