Morey et al (2015) стверджують, що інтервали довіри вводять в оману і є багато ухилів, пов'язаних з їх розумінням. Серед іншого вони описують точність помилок таким чином:
Точність помилок
Ширина довірчого інтервалу вказує на точність наших знань про параметр. Вузькі інтервали довіри показують точні знання, тоді як широкі довірчі помилки показують неточні знання.Немає необхідного зв’язку між точністю оцінки та розміром довірчого інтервалу. Один із способів побачити це - уявити двох дослідників - старшого наукового співробітника та аспіранта - аналізують дані учасників експерименту. Як вправу на користь доктора, старший науковий співробітник вирішує випадковим чином розділити учасників на два набори по 25, щоб кожен міг окремо проаналізувати половину набору даних. В одному з наступних засідань, два поділитися один з одним їх Учнівські т довірчі інтервали для середнього значення. 95 % ДІ докторанта - 52 ± 2 , а старшого наукового співробітника - 95 %CI - .
Старший науковий співробітник зазначає, що їх результати в цілому послідовні, і що вони могли використовувати однаково зважене середнє для двох відповідних бальних оцінок, , як загальну оцінку справжнього середнього.
Однак докторант стверджує, що їх два засоби не повинні бути зваженими рівномірно: вона зазначає, що її ІС наполовину ширша, і стверджує, що її оцінка є більш точною і, таким чином, повинна бути зважена більше. Її радник зазначає, що це не може бути правильним, оскільки оцінка нерівномірно зважування двох засобів буде відрізнятися від оцінки від аналізу повного набору даних, який повинен бути . Помилка докторанта припускає, що ІС безпосередньо вказують на точність після передачі даних.
Наведений вище приклад здається хибним. Якщо ми навмання розділимо вибірку навпіл, на дві вибірки, то ми очікуємо, що і вибіркові засоби, і стандартні помилки будуть близькими. У такому випадку не повинно бути різниці між використанням зваженого середнього (наприклад, зваженого зворотними помилками) та використанням простого середнього арифметичного. Однак якщо оцінки відрізняються, а помилки в одному з вибірок помітно більше, це може підказати "проблеми" з такою вибіркою.
Очевидно, що у вищенаведеному прикладі розміри вибірки однакові, тому "з'єднання" даних шляхом взяття середнього засобу те саме, що взяття середнього значення для всієї вибірки. Проблема полягає в тому, що весь приклад слідує неправильно визначеній логіці, що зразок спочатку розділяється частинами, а потім знову з'єднується для остаточної оцінки.
Приклад можна переформулювати, щоб привести до прямо протилежного висновку:
Дослідник та студент вирішили розділити свій набір даних на дві половини та проаналізувати їх самостійно. Згодом вони порівняли свої оцінки, і виявилося, що вибірка означає, що їх обчислення були дуже різними, до того ж стандартна помилка оцінки студента була значно більшою. Студент побоювався, що це може запропонувати питання з точністю його оцінки, але дослідник мав на увазі відсутність зв'язку між довірчими інтервалами та точністю, тому обидві оцінки однаково достовірні, і вони можуть публікувати будь-яку з них, вибрану випадковим чином, як їх остаточна оцінка.
Отже, моє запитання таке:
чи точність помилок насправді є помилкою? Що довірчі інтервали говорять про точність?
Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015). Помилковість довіри до довірчих інтервалів. Психономічний вісник та огляд, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/