Приблизна відповідь на питання полягає в тому, що 95% довірчий інтервал дозволяє бути впевненим у 95%, що справжнє значення параметра лежить у межах інтервалу. Однак ця груба відповідь є і неповною, і неточною.
Неповнота полягає в тому, що не ясно, що "95% впевненість" означає що-небудь конкретне, або якщо це так, то конкретний сенс не погодився б навіть невеликим зразком статистиків. Значення довіри залежить від того, який метод був використаний для отримання інтервалу та від того, яка модель висновку використовується (яка, сподіваюся, стане зрозумілішою нижче).
Неточність полягає в тому, що багато довірчих інтервалів не розроблені, щоб сказати вам щось про розташування справжнього значення параметра для конкретного експериментального випадку, який дав довірчий інтервал! Багатьом це буде дивно, але це випливає безпосередньо з філософії Неймана-Пірсона, що чітко викладено в цій цитаті з їх праці 1933 року "Про проблему найбільш ефективних тестів статистичних гіпотез":
Ми схильні думати, що, що стосується конкретної гіпотези, жоден тест, заснований на теорії ймовірності, сам по собі не може надати будь-яких цінних доказів істинності чи неправдивості цієї гіпотези.
Але ми можемо розглядати мету тестів з іншої точки зору. Не сподіваючись дізнатися, правдива чи помилкова кожна окрема гіпотеза, ми можемо шукати правила, що керують нашою поведінкою щодо них, дотримуючись яких ми гарантуємо, що, зважаючи на досвід, ми не будемо занадто часто помилятися.
Таким чином, інтервали, які базуються на «інверсії» тестів гіпотези НП, успадкують від цього тесту характер наявності відомих довготривалих властивостей помилок, не дозволяючи робити висновок про властивості експерименту, який їх спричинив! Я розумію, що це захищає від індуктивного умовиводу, який Нейман, мабуть, вважав гидотою.
Нейман чітко заявляє про термін "інтервал довіри" та до походження теорії довірчих інтервалів у своїй біометричній роботі 1941 р. "Фідуціальний аргумент та теорія довірчих інтервалів". У певному сенсі, все, що належним чином довірчий інтервал грає за його правилами, і тому значення індивідуального інтервалу можна виразити лише через величину довгострокової швидкості, з якою інтервали, обчислені цим методом, містять (охоплюють) відповідну істину значення параметра.
Тепер нам потрібно розговорити дискусію. Одна ланцюг відповідає поняттю "охоплення", а інша - ненейманські інтервали, схожі на довірчі інтервали. Я відкладу попередню, щоб я міг виконати цю посаду до того, як вона стане занадто довгою.
Існує багато різних підходів, які дають інтервали виходу, які можна назвати ненеймоновими довірчими інтервалами. Перший з них - довірні інтервали Фішера. (Слово "довірений" може відлякати багатьох і викликати насмішкуваті посмішки від інших, але я залишу це осторонь ...) Для деяких типів даних (наприклад, нормальних з невідомою дисперсією популяції) інтервали, обчислені методом Фішера, чисельно ідентичні інтервали, які були б обчислені методом Неймана. Однак вони запрошують інтерпретації, діаметрально протилежні. Нейманові інтервали відображають лише властивості довготривалого покриття методу, тоді як інтервали Фішера призначені для підтримки індуктивного висновку щодо істинних значень параметрів для конкретного експерименту, який був проведений.
Той факт, що одна сукупність інтервальних меж може виходити з методів, заснованих на будь-якій з двох філософсько виразних парадигм, призводить до дійсно заплутаної ситуації - результати можна інтерпретувати двома суперечливими способами. З довідкового аргументу випливає 95% ймовірність того, що конкретний 95% фінансовий інтервал буде містити справжнє значення параметра. З методу Неймана ми знаємо лише, що 95% інтервалів, обчислених таким чином, міститимуть справжнє значення параметра, і треба сказати, що заплутаються речі щодо ймовірності інтервалу, що містить справжнє значення невідомого, але або 1, або 0.
Значною мірою підхід Неймана вплинув на Фішера. На мою думку, це найбільш прикро, оскільки це не призводить до природної інтерпретації інтервалів. (Перечитайте цитату вище від Неймана та Пірсона і побачите, чи відповідає вона вашій природній інтерпретації експериментальних результатів. Швидше за все, це не так.)
Якщо інтервал можна правильно інтерпретувати з точки зору глобальних коефіцієнтів помилок, але також правильно в локальних інфекційних умовах, я не бачу вагомих причин забороняти користувачам інтервалу від більш природної інтерпретації, яку надає останній. Таким чином, моя пропозиція полягає в тому, що правильне тлумачення інтервалу довіри - це БУТИ наступного:
Неймановий: Цей 95% інтервал був побудований методом, який дає інтервали, які охоплюють справжнє значення параметра в 95% випадків у довгостроковій перспективі (... наш статистичний досвід).
Фішерський: Цей 95% інтервал має 95% вірогідність покриття справжнього значення параметра.
(Байєсівські та ймовірнісні методи також дозволять отримати інтервали з бажаними частолістськими властивостями. Такі інтервали пропонують дещо різні інтерпретації, які, ймовірно, будуть відчувати себе більш природними, ніж нейманські.)