Так, є кілька простих взаємозв'язків між порівнянням інтервалу довіри та тестами гіпотез у широкому діапазоні практичних налаштувань. Однак, крім перевірки процедур ІС та t-тесту, які відповідають нашим даним, ми повинні перевірити, чи розміри вибірки не надто різні та чи мають два набори схожі стандартні відхилення. Ми також не повинні намагатися отримати високоточні р-значення, порівнюючи два інтервали довіри, але повинні бути раді розробити ефективні наближення.
Намагаючись узгодити дві відповіді, які вже були надані (@John та @Brett), це допомагає бути ясним математично. Формула для симетричного двостороннього довірчого інтервалу, відповідна для постановки цього питання, така
CI = m ± tα( n ) sн--√
де - середнє значення вибірки з незалежних спостережень, - стандартне відхилення вибірки, - бажаний розмір тесту (максимальний помилковий позитивний показник), а - верхній відсоток Розподіл студента t з ступенем свободи. (Це невелике відхилення від звичайних позначень спрощує експозицію, забороняючи будь-яку потребу в суєті за відмінність проти , що в будь-якому випадку буде несуттєвим.)мns2αtα(n)1−αn−1n n - 1 n−1
Використовуючи індекси і , щоб розрізняти два незалежних наборів даних для порівняння, з , відповідної більшого з двох засобів, то НЕ -overlap довірчих інтервалів виражається нерівністю (нижня межа довірчого 1) (верхнього довірчого межі 2); саме. ,121>>
m1−tα(n1)s1n1−−√>m2+tα(n2)s2n2−−√.
Це можна зробити так, щоб виглядати як t-статистика відповідного тесту гіпотези (для порівняння двох засобів) з простими алгебраїчними маніпуляціями, що дає
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
Ліва сторона - це статистика, що використовується в тесті гіпотез; його зазвичай порівнюють із відсотком розподілу Стьюдента t з ступенем свободи: тобто з . Права сторона - це упереджене середньозважене середнє значення вихідних t відсотків розподілу.n1+n2tα(n1+n2)
Аналіз поки що виправдовує відповідь @Brett: здається, що простих стосунків немає. Однак давайте пробувати далі. Мене це надихає, тому що, інтуїтивно, неперебіг інтервалів довіри повинен щось сказати!
По-перше, зауважте, що ця форма тесту гіпотези справедлива лише тоді, коли ми очікуємо, що та принаймні приблизно рівні. (Інакше ми стикаємося з горезвісною проблемою Беренса-Фішера та її складностями.) Перевіривши приблизну рівність , ми зможемо створити приблизне спрощення у форміs1s2s isi
m1−m2s1/n1+1/n2−−−−−−−−−−√>n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√.
Тут, . Реально, ми не повинні сподіватися, що це неофіційне порівняння меж довіри матиме такий самий розмір, як . Тоді наше запитання полягає в тому, чи існує така « така, що права рука (принаймні приблизно) дорівнює правильній t-статистиці. А саме, для чого це такs≈s1≈s2αα′α′
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
Виявляється, що при рівних розмірах вибірки та (з досить високою точністю) пов'язані законом про потужність. αα′ Наприклад, тут подано графік журналу з двох випадків (найнижча синя лінія), (середня червона лінія), (найвища золота лінія). Середня зелена пунктирна лінія - це наближення, описане нижче. Прямолінійність цих кривих несе закон закону. Він змінюється від , але не сильно.n1=n2=2n1=n2=5n1=n2=∞n=n1=n2
Відповідь залежить від набору , але природно цікавитись, наскільки вона насправді змінюється залежно від змін розмірів вибірки. Зокрема, ми можемо сподіватися, що для помірних та великих розмірів вибірки (можливо або наступних) розмір вибірки має незначну різницю. У цьому випадку ми могли б розробити кількісний спосіб співвідношення до .{n1,n2}n1≥10,n2≥10α ′ αα′α
Цей підхід виявляється спрацьовим за умови, що розміри вибірки не надто відрізняються один від одного. У дусі простоти я повідомлю формулу багатозначного обчислення для обчислення тестового розміру відповідає розміру довірчого інтервалу . це єα′α
α′≈eα1.91;
це є,
α′≈exp(1+1.91log(α)).
Ця формула працює досить добре в таких поширених ситуаціях:
Обидва розміри вибірки близькі один до одного, , а не надто екстремальний ( або близько того).n1≈n2αα>.001
Розмір одного зразка знаходиться приблизно в три рази більше, а інший і найменший не надто малий (приблизно, більше ), і знову-таки не надто екстремальний.10α
Розмір одного зразка в межах трьох разів більше, ніж інший і або близько того.α>.02
Відносна помилка (правильне значення, поділене на наближення) у першій ситуації тут нанесено, при цьому нижня (синя) лінія показує випадок , середня (червона) лінія та верхня (золота) лінія відмінка . Інтерполюючи між двома останніми, ми бачимо, що наближення є відмінним для широкого діапазону практичних значень коли розміри вибірки помірні (близько 5-50) і в іншому випадку є досить хорошими.n1=n2=2n1=n2=5n1=n2=∞α
Це більш ніж добре для очного яблука купу інтервалів впевненості.
Підводячи підсумок, відмова двох довірчих інтервалів розміру засобів перекриття є вагомим свідченням різниці в засобах на рівні, рівному , за умови, що обидва зразки мають приблизно однакові стандартні відхилення і приблизно однакового розміру.2α2eα1.91
Я закінчу табличним наближенням для загальних значень .2α
2α 2α′
0,1 0,02
0,05 0,005
0,01 0,0002
0,005 0,00006
Наприклад, коли пара двосторонніх 95% КІ ( ) для зразків приблизно рівних розмірів не перетинаються, ми повинні брати засоби, що суттєво відрізняються, . Правильне p-значення (для рівних розмірів вибірки ) насправді лежить між ( ) і ( ).2α=.05p<.005n.0037n=2.0056n=∞
Цей результат виправдовує (і, сподіваюся, покращився) відповідь @John. Таким чином, хоча попередні відповіді, здається, суперечать, обидві (по-своєму) правильні.