Співвідношення між довірчим інтервалом і тестуванням статистичної гіпотези для t-тесту


31

Добре відомо, що інтервали довіри та перевірка статистичної гіпотези сильно пов'язані. Мої запитання зосереджені на порівнянні засобів для двох груп на основі числової змінної. Припустимо, що така гіпотеза перевірена за допомогою t-тесту. З іншого боку, можна обчислити довірчі інтервали для засобів обох груп. Чи існує якийсь зв’язок між перекриттям довірчих інтервалів та відхиленням нульової гіпотези про рівність засобів (на користь альтернативи, яка означає, що відрізняється - двостороннього тесту)? Наприклад, тест може відхилити нульову гіпотезу, якщо довірчі інтервали не перетинаються.

Відповіді:


31

Так, є кілька простих взаємозв'язків між порівнянням інтервалу довіри та тестами гіпотез у широкому діапазоні практичних налаштувань. Однак, крім перевірки процедур ІС та t-тесту, які відповідають нашим даним, ми повинні перевірити, чи розміри вибірки не надто різні та чи мають два набори схожі стандартні відхилення. Ми також не повинні намагатися отримати високоточні р-значення, порівнюючи два інтервали довіри, але повинні бути раді розробити ефективні наближення.

Намагаючись узгодити дві відповіді, які вже були надані (@John та @Brett), це допомагає бути ясним математично. Формула для симетричного двостороннього довірчого інтервалу, відповідна для постановки цього питання, така

CI=m±tα(n)sn

де - середнє значення вибірки з незалежних спостережень, - стандартне відхилення вибірки, - бажаний розмір тесту (максимальний помилковий позитивний показник), а - верхній відсоток Розподіл студента t з ступенем свободи. (Це невелике відхилення від звичайних позначень спрощує експозицію, забороняючи будь-яку потребу в суєті за відмінність проти , що в будь-якому випадку буде несуттєвим.)mns2αtα(n)1αn1n n - 1 n1

Використовуючи індекси і , щоб розрізняти два незалежних наборів даних для порівняння, з , відповідної більшого з двох засобів, то НЕ -overlap довірчих інтервалів виражається нерівністю (нижня межа довірчого 1) (верхнього довірчого межі 2); саме. ,121>>

m1tα(n1)s1n1>m2+tα(n2)s2n2.

Це можна зробити так, щоб виглядати як t-статистика відповідного тесту гіпотези (для порівняння двох засобів) з простими алгебраїчними маніпуляціями, що дає

m1m2s12/n1+s22/n2>s1n2tα(n1)+s2n1tα(n2)n1s22+n2s12.

Ліва сторона - це статистика, що використовується в тесті гіпотез; його зазвичай порівнюють із відсотком розподілу Стьюдента t з ступенем свободи: тобто з . Права сторона - це упереджене середньозважене середнє значення вихідних t відсотків розподілу.n1+n2tα(n1+n2)

Аналіз поки що виправдовує відповідь @Brett: здається, що простих стосунків немає. Однак давайте пробувати далі. Мене це надихає, тому що, інтуїтивно, неперебіг інтервалів довіри повинен щось сказати!

По-перше, зауважте, що ця форма тесту гіпотези справедлива лише тоді, коли ми очікуємо, що та принаймні приблизно рівні. (Інакше ми стикаємося з горезвісною проблемою Беренса-Фішера та її складностями.) Перевіривши приблизну рівність , ми зможемо створити приблизне спрощення у форміs1s2s isi

m1m2s1/n1+1/n2>n2tα(n1)+n1tα(n2)n1+n2.

Тут, . Реально, ми не повинні сподіватися, що це неофіційне порівняння меж довіри матиме такий самий розмір, як . Тоді наше запитання полягає в тому, чи існує така « така, що права рука (принаймні приблизно) дорівнює правильній t-статистиці. А саме, для чого це такss1s2ααα

tα(n1+n2)=n2tα(n1)+n1tα(n2)n1+n2?

Виявляється, що при рівних розмірах вибірки та (з досить високою точністю) пов'язані законом про потужність. αα Наприклад, тут подано графік журналу з двох випадків (найнижча синя лінія), (середня червона лінія), (найвища золота лінія). Середня зелена пунктирна лінія - це наближення, описане нижче. Прямолінійність цих кривих несе закон закону. Він змінюється від , але не сильно.n1=n2=2n1=n2=5n1=n2=n=n1=n2

Сюжет 1

Відповідь залежить від набору , але природно цікавитись, наскільки вона насправді змінюється залежно від змін розмірів вибірки. Зокрема, ми можемо сподіватися, що для помірних та великих розмірів вибірки (можливо або наступних) розмір вибірки має незначну різницю. У цьому випадку ми могли б розробити кількісний спосіб співвідношення до .{n1,n2}n110,n210α ααα

Цей підхід виявляється спрацьовим за умови, що розміри вибірки не надто відрізняються один від одного. У дусі простоти я повідомлю формулу багатозначного обчислення для обчислення тестового розміру відповідає розміру довірчого інтервалу . це єαα

αeα1.91;

це є,

αexp(1+1.91log(α)).

Ця формула працює досить добре в таких поширених ситуаціях:

  • Обидва розміри вибірки близькі один до одного, , а не надто екстремальний ( або близько того).n1n2αα>.001

  • Розмір одного зразка знаходиться приблизно в три рази більше, а інший і найменший не надто малий (приблизно, більше ), і знову-таки не надто екстремальний.10α

  • Розмір одного зразка в межах трьох разів більше, ніж інший і або близько того.α>.02

Відносна помилка (правильне значення, поділене на наближення) у першій ситуації тут нанесено, при цьому нижня (синя) лінія показує випадок , середня (червона) лінія та верхня (золота) лінія відмінка . Інтерполюючи між двома останніми, ми бачимо, що наближення є відмінним для широкого діапазону практичних значень коли розміри вибірки помірні (близько 5-50) і в іншому випадку є досить хорошими.n1=n2=2n1=n2=5n1=n2=α

Сюжет 2

Це більш ніж добре для очного яблука купу інтервалів впевненості.

Підводячи підсумок, відмова двох довірчих інтервалів розміру засобів перекриття є вагомим свідченням різниці в засобах на рівні, рівному , за умови, що обидва зразки мають приблизно однакові стандартні відхилення і приблизно однакового розміру.2α2eα1.91

Я закінчу табличним наближенням для загальних значень .2α

2α 2α
0,1 0,02

0,05 0,005

0,01 0,0002

0,005 0,00006

Наприклад, коли пара двосторонніх 95% КІ ( ) для зразків приблизно рівних розмірів не перетинаються, ми повинні брати засоби, що суттєво відрізняються, . Правильне p-значення (для рівних розмірів вибірки ) насправді лежить між ( ) і ( ).2α=.05p<.005n.0037n=2.0056n=

Цей результат виправдовує (і, сподіваюся, покращився) відповідь @John. Таким чином, хоча попередні відповіді, здається, суперечать, обидві (по-своєму) правильні.


7

Ні, принаймні не простий.

Однак існує точне відповідність між t-тестом різниці між двома засобами та довірчим інтервалом для різниці між двома засобами.

Якщо довірчий інтервал для різниці між двома засобами містить нуль, t-тест на цю різницю не зможе відкинути нуль на тому самому рівні достовірності. Так само якщо довірчий інтервал не містить 0, t-тест відхилить нуль.

Це не те саме, що перекриття між довірчими інтервалами для кожного з двох засобів.


Відповідь @John, яка на даний момент не зовсім правильна в деталях, правильно вказує на те, що так, ви можете пов’язати перекриття CI для тестування p-значень. Відносини не є більш складними, ніж сам тест-тест. Це має вигляд суперечити вашому первинному висновку, як сказано в першому рядку. Як би ви вирішили цю різницю?
whuber

Я не думаю, що вони суперечать один одному. Я можу додати деякі застереження. Але в загальному сенсі без додаткових припущень і знань про параметри поза поданням інтервалу (дисперсія, розмір вибірки) відповідь стоїть так, як є. Ні, принаймні не простий.
Бретт

5

Так, при типових припущеннях рівної дисперсії так, існує взаємозв'язок. Якщо бари перекриваються менше ніж на довжину одного бар * sqrt (2), t-тест виявить, що вони значно відрізняються при альфа = 0,05. Якщо кінці брусків ледь торкаються, різницю можна було б знайти в 0,01. Якщо довірчі інтервали для груп не рівні, зазвичай береться середнє значення і застосовується те саме правило.

Альтернативно, якщо ширина довірчого інтервалу навколо одного із засобів становить w, то найменша істотна різниця між двома значеннями - w * sqrt (2). Це просто, коли ви думаєте про знаменник у незалежних групах t-test, sqrt (2 * MSE / n) та коефіцієнт для CI, який, sqrt (MSE / n).

(Передбачається 95% ІС)

Там простий документ про внесення висновків з довірчих інтервалів незалежних засобів тут . Він дасть відповідь на це запитання та багато інших пов'язаних з вами питань.

Куммінг, Г., І Фінч, С. (2005, березень). Висновок очей: довірчі інтервали та спосіб читання зображень даних. Американський психолог , 60 (2), 170-180.


2
Я вважаю, що вам потрібно також припустити, що дві групи мають однакові розміри.
whuber

приблизно, так ...
Іван
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.