Як інтерпретувати довірчий інтервал різниці в засобах в одному зразку Т-тесту?


21

SPSS забезпечує вихід "довірчий інтервал значень різниці". Я десь читав, що це означає "95 разів із 100, середня наша вибіркова різниця буде між цими межами". Я вважаю це незрозумілим. Чи може хтось запропонувати більш чітке формулювання для пояснення "довірчого інтервалу різниці в засобах"? Цей результат з'являється в контексті однопробного t-тесту.


1
Яка ваша інтерпретація?
mpiktas

1
Зауважте, що немає нічого особливого в тому, що ця пропорція: CI для оцінки чого-небудь буде трактуватися аналогічно. (Однак для побудови ІС можуть бути використані різні процедури, залежно від того, що оцінюється.) Отже, це питання точно таке ж, як і попередні запитання про інтерпретації ІС.
whuber

Відповіді:


13

Це непроста річ, навіть для шанованих статистиків. Подивіться на одну недавню спробу Нейт Сілвер :

... якби я попросив вас сказати мені, як часто ваш маршрут займає 10 хвилин довше, ніж в середньому - щось вимагає певної версії довірчого інтервалу - вам доведеться трохи подумати над цим, ...

(із блогу FiveThirtyEight у New York Times, 9/29/10.) Це не так довірчий інтервал. Залежно від того, як ви його інтерпретуєте, це або інтервал допуску, або інтервал прогнозування. (Інакше немає нічого спільного з відмінною дискусією містера Сільвера про оцінку ймовірностей; це добре читати.) Багато інших веб-сайтів (особливо тих, які мають інвестиційний фокус) аналогічно плутають довірчі інтервали з іншими видами інтервалів.

"Нью-Йорк Таймс" доклав зусиль для з'ясування значення статистичних результатів, які він виробляє, та звітів про них. Дрібний шрифт під багатьма опитуваннями включає щось подібне:

Теоретично, у 19 випадках із 20 результатів, заснованих на таких вибірках у всіх дорослих, будуть відрізнятися не більше ніж на три відсоткові пункти в будь-якому напрямку від того, що було б отримано, шукаючи опитування всіх дорослих американців.

( наприклад , як проводилось опитування , 2.05.2011.)

Трохи багатослівне, можливо, але чітке та точне: це твердження характеризує мінливість розподілу вибірки результатів опитування. Це наближається до ідеї довірчого інтервалу, але це не зовсім так. Однак, можливо, можна використовувати таке формулювання замість довірчих інтервалів у багатьох випадках.

Коли в Інтернеті стільки потенційної плутанини, корисно звернутися до авторитетних джерел. Один з моїх улюблених - текст Freedman, Pisani та Purves, статистики. Тепер, у своєму четвертому виданні, він використовується в університетах вже більше 30 років і відрізняється своїми чіткими, зрозумілими поясненнями та зосередженістю на класичних "частістських" методах. Подивимося, що це говорить про інтерпретацію довірчих інтервалів:

Рівень довіри 95% говорить щось про процедуру вибірки ...

[на с. 384; всі цитати - з третього видання (1998)]. Це продовжується,

Якби вибірка вийшла по-іншому, довірчий інтервал був би іншим. ... Для приблизно 95% усіх вибірок інтервал ... охоплює відсоток популяції, а для інших 5% - не.

[с. 384]. Текст говорить набагато більше про довірчі інтервали, але цього достатньо для того, щоб допомогти: його підхід полягає в переміщенні фокусу дискусії на зразок, одночасно вносячи суворість і чіткість у твердження. Тому ми можемо спробувати те ж саме у власній звітності. Наприклад, застосуємо цей підхід для опису довірчого інтервалу [34%, 40%] навколо повідомленої відсоткової різниці в гіпотетичному експерименті:

"Цей експеримент використовував випадково вибраний зразок випробуваних і випадковий вибір контрольних елементів. Ми повідомляємо про довірчий інтервал від 34% до 40% для різниці. Це кількісно визначає надійність експерименту: якщо вибір суб'єктів та контрольних елементів був різним цей інтервал довіри змінився б, щоб відобразити результати для вибраних суб'єктів та контрольних груп. У 95% таких випадків інтервал довіри включав би справжню різницю (між усіма суб'єктами та всіма контролями), а в інших 5% випадків не буде Тому, ймовірно, але не певно, що цей довірчий інтервал включає справжню різницю: тобто ми вважаємо, що справжня різниця становить між 34% і 40% ".

(Це мій текст, який, безумовно, можна вдосконалити. Я запрошую редакторів працювати над ним.)

Довге подібне твердження є дещо непростим. У фактичних звітах більша частина контексту - випадкова вибірка, теми та елементи управління, можливість варіабельності - вже були встановлені, що робить половину попереднього твердження непотрібним. Коли у звіті встановлено, що є вибіркова варіабельність та представлена ​​модель ймовірності результатів вибірки, зазвичай не важко пояснити довірчий інтервал (або інший випадковий інтервал) настільки чітко і строго, як потрібно аудиторії.


Спасибі Вюбер, я розумію інтервали довіри середньо досить добре. Мені заважає різниця в засобах (між зразком і попом).
Енн

@Anne Що ти маєш на увазі? Наскільки я можу сказати, ні ваше запитання, ні будь-яка відповідь не стосується різниці між середньою вибіркою та середньою сукупністю. Здається, ваше запитання посилається на різницю між двома вибірковими засобами (можливо, середнім значенням групи експериментальних суб'єктів та групою контрольних).
whuber

Я маю на увазі приклад, де ви шукаєте різницю між вибіркою та середньою сукупністю. У цьому випадку означає, що саме означає CI між зразком та pop. Ми використовували середнє значення вибірки для оцінки поп-стандартного відхилення, і, таким чином, ми оцінюємо CI навколо середньої оцінки. Різниця засобів не є різницею середнього поп-середини, яку ми надали, і середньої вибірки. Так що це?
Енн

1
@Anne Чи "середнє населення" - це гіпотетичне, невідоме середнє значення для вибірки населення чи це вимірюване середнє значення для іншої сукупності, яка була вичерпно відібрана? Крім того, в якому сенсі ви використовували "вибіркове значення" для оцінки стандартного відхилення населення ? Це, можливо, помилка друку?
whuber

2
@whuber спасибі Ваш рядок "CI, обчислені для 95% усіх зразків (тобто 95% усіх можливих реплікацій), покриє цю справжню різницю". для мене зрозуміліше, ніж "95 разів із 100, наша середня вибіркова різниця буде між цими межами", і ваше пояснення має логічний сенс.
Енн

5

З педантичного технічного погляду я особисто не думаю, що існує "чітка формулювання" інтерпретації довірчих інтервалів.

Я б інтерпретував довірчий інтервал як: існує 95% вірогідність, що 95% довірчий інтервал покриває справжню середню різницю

NN

N-1

Але зауважте, що це все у філософії. Інтервали довіри найкраще залишатись невиразними в поясненні, на який я думаю. Вони дають хороші результати при правильному використанні.


Початок нового речення після "N різних інтервалів довіри". не вдається добре "ви можете далі інтерпретувати це як кажучи ...". Пропоную змінити третій абзац.
Theta30

2
Ваш третій абзац набагато кращий за другий. Залежно від спостережуваних даних, інтервал довіри або містить справжнє значення параметра, або його немає.
кардинал

@probabilityislogic: Оскільки ця відповідь була прийнята, будь ласка, подумайте про редагування другого абзацу. Також, чи можете ви уточнити, що ви маєте на увазі у другому до останнього абзацу? Як читається, я не зовсім впевнений, який аргумент ви висуваєте.
кардинал

якщо ми інтерпретуємо довірчі інтервали в терміні "повторення" експерименту, тоді ми повинні ігнорувати попередні експерименти в цих повторах. Моя думка: чому незнання попередніх експериментів у цих "повторах" довірчих інтервалів добре для тих наборів даних, яких ми не спостерігали, але ми повинні об'єднати дані для даних, які ми спостерігали? Хіба не було б так багато сенсу (з того, що я розумію щодо інтерпретації ІП), створювати стільки CI, скільки ви можете з отриманими вами даними?
ймовірністьлогічний

1
Існує ціла теорія, багато в чому паралельна оптимальній теорії рішень, про рівномірно найточніші набори довіри. Можливо, саме цей фрагмент головоломки відсутній для вас. (?)
кардинал

3

Приблизна відповідь на питання полягає в тому, що 95% довірчий інтервал дозволяє бути впевненим у 95%, що справжнє значення параметра лежить у межах інтервалу. Однак ця груба відповідь є і неповною, і неточною.

Неповнота полягає в тому, що не ясно, що "95% впевненість" означає що-небудь конкретне, або якщо це так, то конкретний сенс не погодився б навіть невеликим зразком статистиків. Значення довіри залежить від того, який метод був використаний для отримання інтервалу та від того, яка модель висновку використовується (яка, сподіваюся, стане зрозумілішою нижче).

Неточність полягає в тому, що багато довірчих інтервалів не розроблені, щоб сказати вам щось про розташування справжнього значення параметра для конкретного експериментального випадку, який дав довірчий інтервал! Багатьом це буде дивно, але це випливає безпосередньо з філософії Неймана-Пірсона, що чітко викладено в цій цитаті з їх праці 1933 року "Про проблему найбільш ефективних тестів статистичних гіпотез":

Ми схильні думати, що, що стосується конкретної гіпотези, жоден тест, заснований на теорії ймовірності, сам по собі не може надати будь-яких цінних доказів істинності чи неправдивості цієї гіпотези.

Але ми можемо розглядати мету тестів з іншої точки зору. Не сподіваючись дізнатися, правдива чи помилкова кожна окрема гіпотеза, ми можемо шукати правила, що керують нашою поведінкою щодо них, дотримуючись яких ми гарантуємо, що, зважаючи на досвід, ми не будемо занадто часто помилятися.

Таким чином, інтервали, які базуються на «інверсії» тестів гіпотези НП, успадкують від цього тесту характер наявності відомих довготривалих властивостей помилок, не дозволяючи робити висновок про властивості експерименту, який їх спричинив! Я розумію, що це захищає від індуктивного умовиводу, який Нейман, мабуть, вважав гидотою.

Нейман чітко заявляє про термін "інтервал довіри" та до походження теорії довірчих інтервалів у своїй біометричній роботі 1941 р. "Фідуціальний аргумент та теорія довірчих інтервалів". У певному сенсі, все, що належним чином довірчий інтервал грає за його правилами, і тому значення індивідуального інтервалу можна виразити лише через величину довгострокової швидкості, з якою інтервали, обчислені цим методом, містять (охоплюють) відповідну істину значення параметра.

Тепер нам потрібно розговорити дискусію. Одна ланцюг відповідає поняттю "охоплення", а інша - ненейманські інтервали, схожі на довірчі інтервали. Я відкладу попередню, щоб я міг виконати цю посаду до того, як вона стане занадто довгою.

Існує багато різних підходів, які дають інтервали виходу, які можна назвати ненеймоновими довірчими інтервалами. Перший з них - довірні інтервали Фішера. (Слово "довірений" може відлякати багатьох і викликати насмішкуваті посмішки від інших, але я залишу це осторонь ...) Для деяких типів даних (наприклад, нормальних з невідомою дисперсією популяції) інтервали, обчислені методом Фішера, чисельно ідентичні інтервали, які були б обчислені методом Неймана. Однак вони запрошують інтерпретації, діаметрально протилежні. Нейманові інтервали відображають лише властивості довготривалого покриття методу, тоді як інтервали Фішера призначені для підтримки індуктивного висновку щодо істинних значень параметрів для конкретного експерименту, який був проведений.

Той факт, що одна сукупність інтервальних меж може виходити з методів, заснованих на будь-якій з двох філософсько виразних парадигм, призводить до дійсно заплутаної ситуації - результати можна інтерпретувати двома суперечливими способами. З довідкового аргументу випливає 95% ймовірність того, що конкретний 95% фінансовий інтервал буде містити справжнє значення параметра. З методу Неймана ми знаємо лише, що 95% інтервалів, обчислених таким чином, міститимуть справжнє значення параметра, і треба сказати, що заплутаються речі щодо ймовірності інтервалу, що містить справжнє значення невідомого, але або 1, або 0.

Значною мірою підхід Неймана вплинув на Фішера. На мою думку, це найбільш прикро, оскільки це не призводить до природної інтерпретації інтервалів. (Перечитайте цитату вище від Неймана та Пірсона і побачите, чи відповідає вона вашій природній інтерпретації експериментальних результатів. Швидше за все, це не так.)

Якщо інтервал можна правильно інтерпретувати з точки зору глобальних коефіцієнтів помилок, але також правильно в локальних інфекційних умовах, я не бачу вагомих причин забороняти користувачам інтервалу від більш природної інтерпретації, яку надає останній. Таким чином, моя пропозиція полягає в тому, що правильне тлумачення інтервалу довіри - це БУТИ наступного:

  • Неймановий: Цей 95% інтервал був побудований методом, який дає інтервали, які охоплюють справжнє значення параметра в 95% випадків у довгостроковій перспективі (... наш статистичний досвід).

  • Фішерський: Цей 95% інтервал має 95% вірогідність покриття справжнього значення параметра.

(Байєсівські та ймовірнісні методи також дозволять отримати інтервали з бажаними частолістськими властивостями. Такі інтервали пропонують дещо різні інтерпретації, які, ймовірно, будуть відчувати себе більш природними, ніж нейманські.)


@Micheal - місце, де вони будуть відрізнятися, полягає в тому, що футуристичний інтервал повинен базуватися на достатній статистиці та умові для всіх допоміжних кількостей. Інтервал довіри Неймана не потребує цього властивості, і тому вони підпадають під "95% довірчий інтервал", що має різний охоплення для певних підкласів зразків.
ймовірністьлогічний

@probability - Чи можете ви розширити це? Ви маєте на увазі, що існують обставини, коли 95% нейманський довірчий інтервал є довірчим інтервалом, але це не 95% інтервал? Якими були б ті обставини? Чи мали б риболовський інтервал однакові межі за тих обставин?
Майкл Лев

Ви можете показати випадки, коли з вибірки ви можете сказати, що довірчий інтервал "95%" не містить справжнього значення. приклад 5 та приклад 6 у роботі Джейнеса наводять два випадки, коли не використовуючи достатню статистику в КІ дається довготривале висвітлення, але охоплення буде змінюватися в певних класах вибірки. Це аналогічно наявності двох змінних з однаковим середнім рівнем (довготривале покриття), але різною дисперсією (покриття в конкретному випадку)
ймовірністьлогічний

2

Сенс довірчого інтервалу полягає в тому, якби ви повторювали свій експеримент точно таким же чином (тобто: однакова кількість спостережень, виведення з тієї ж сукупності тощо), і якщо ваші припущення є правильними, ви б обчислили цей інтервал знову в кожному повторенні, тоді цей довірчий інтервал містив би справжню поширеність у 95% повторень (в середньому).

Отже, ви можете сказати, що ви впевнені на 95% (якщо ваші припущення є правильними тощо), що ви зараз побудували інтервал, який містить справжню поширеність.

Зазвичай це заявляється так: з 95% впевненістю між 4,5 і 8,3% дітей матерів, які курили протягом вагітності, страждають ожирінням.

Зауважте, що це, як правило, саме по собі не цікаво: ви, мабуть, хочете порівняти це із поширеністю у дітей матерів, які не палили (коефіцієнт шансів, відносний ризик тощо).


(Ця відповідь, яка надійшла сюди після злиття двох потоків, відповідає на
повторне

0

Якщо справжня середня різниця знаходиться поза цим інтервалом, то існує лише 5% шансів, що середня різниця від нашого експерименту буде настільки далекою від справжньої середньої різниці.


Що ви маєте на увазі під "цим далеко"? Це верхня межа CI, яка знаходиться далеко, або середнє спостереження?
ймовірністьлогічний

Відстань між справжньою середньою та спостережуваною середньою - це те, що я маю на увазі під «цим далеко». Я збираюся змінити це на «так далеко»; Я думаю, що це трохи зрозуміліше.
Томас Левін

-2

Моя інтерпретація: Якщо ви будете проводити експеримент N разів (де N прагне до нескінченності), з цих великих експериментів 95% експериментів матимуть довірчі інтервали, які лежать в межах цих 95% меж. Більш чітко, скажімо, що ці межі є "a" і "b", то 95 з 100 разів перевищує середню кількість вибірки між "a" і "b". Я припускаю, що ви розумієте, що різні експерименти можуть охоплювати різні вибірки з усього населення.


@ Ayush. Спасибі. Це корисно. Вибачте, я не дуже дотримуюся вашого останнього речення.
Енн

@anne - Гаразд. Що я маю на увазі, якщо ви хочете перевірити середнє значення між двома зразками і скажемо, що кожен зразок має 1000 чоловік, ви можете визначити з нього нескінченні зразки (скажімо, 40 людей з кожного). Я написав це, щоб сказати, чому робити різні експерименти відрізняються один від одного. Експерименти, де ми спостерігаємо довірчий інтервал.
ayush biyani

2
@ayush - це не правильне тлумачення у вашому останньому останньому реченні. Або принаймні слід додати підписки на "a" та "b", що дає зрозуміти, що саме ці кількості змінюються в 100 разів. Згідно з вашим поточним позначенням, схоже, що "a" і "b" є фіксованими величинами.
ймовірністьлогічний

@probabilityislogic - погодьтеся .. підписки необхідні.
ayush biyani

1
@Ayush (-1) Характеристика, яка наразі з'являється у вашій відповіді, може бути інтерпретована кількома способами, більшість з яких (тому) є невірними. Наприклад, довірчі інтервали[а,б]зазвичай побудовані так, щоб містити "середню різницю вибірки", маючи на увазі, що ця різниця буде лежати між межами 100% часу незалежно від того.
whuber

-2

"У 95 разів із 100 ваші значення впадуть в межах одного стандартного відхилення середнього значення"


4
Ласкаво просимо на сайт, @beginnerstat. Цікаво, чи ти мав на увазі сказати « два стандартних відхилення середнього значення»? Крім того, я не впевнений, що бачу, як покращується це формулювання щодо того, що прочитала ОП в інших місцях. Чи хотіли б ви трохи розібратися?
gung - Відновіть Моніку

1
Так, до коментаря @ gung: Мені особливо цікаво розуміти сенс, у якому тут вживаються "середнє" та "SD". Це стосуються базових параметрів або вибіркових оцінок ? Чи відносяться вони до розподілу базової випадкової величини або до вибіркового розподілу середнього значення iid- змінних від такого розподілу?
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.