Пояснення не цілих ступенів свободи в t тесті з неоднаковими відхиленнями


15

Процедура SPSS t-Test повідомляє про 2 аналізи при порівнянні 2 незалежних засобів, один аналіз із рівними відхиленнями та один із рівними відхиленнями, які не передбачаються. Ступені свободи (df), коли приймаються рівні дисперсії, завжди є цілими значеннями (і рівними n-2). Коефіцієнт df, коли не передбачається рівних дисперсій, не є цілим числом (наприклад, 11.467) і ніде поблизу n-2. Я шукаю пояснення логіки та методу, що використовується для обчислення цих не цілих df.


3
Презентація PowerPoint університету Флориди містить хороший виклад того, як виходить це наближення до розподілу вибірки статистики Стьюдента для випадку неоднакових дисперсій.
whuber

Чи завжди тест Велча є більш точним? Чи є недолік використання підходу Велча?
Joel W.

Якщо показник Welch та оригінального t-тесту суттєво відрізняється від рівня p, то з чим мені піти? Що робити, якщо значення p для відмінностей у дисперсіях становить лише 0,06, але відмінності в p валях двох t-тестів становлять .000 та .121? (Це сталося, коли одна група з 2 не мала варіації, а друга група з 25 мала дисперсію в 70 000.)
Joel W.

2
Не вибирайте між ними на основі значення. Якщо у вас немає вагомих причин (перш ніж ви навіть побачите дані) припускати рівну дисперсію, просто не робіть цього припущення. p
Glen_b -Встановіть Моніку

1
Усі питання стосуються того, коли використовувати тест Велча. Це запитання було розміщено на сайті stats.stackexchange.com/questions/116610/…
Joel W.

Відповіді:


11

Вельх-Саттертвайтський df може бути показаний як середньозважена гармонічна середня величина двох ступенів свободи з вагами, пропорційними відповідним стандартним відхиленням.

Оригінальний вираз звучить так:

νW=(s12n1+s22n2)2s14n12ν1+s24n22ν2

Зауважу , що це передбачувана дисперсія I - го вибіркового середнього або квадрат з я їй стандартної помилки середніх . Нехай r = r 1 / r 2 (відношення розрахункових дисперсій вибірки означає), такri=si2/niithir=r1/r2

νW=(r1+r2)2r12ν1+r22ν2=(r1+r2)2r12+r22r12+r22r12ν1+r22ν2=(r+1)2r2+1r12+r22r12ν1+r22ν2

1+sech(log(r))1r=02r=11r=logr

Другий фактор - середньозважене гармонічне значення :

H(x_)=i=1nwii=1nwixi.

of the d.f., where wi=ri2 are the relative weights to the two d.f.

Which is to say, when r1/r2 is very large, it converges to ν1. When r1/r2 is very close to 0 it converges to ν2. When r1=r2 you get twice the harmonic mean of the d.f., and when s12=s22 you get the usual equal-variance t-test d.f., which is also the maximum possible value for νW.

--

With an equal-variance t-test, if the assumptions hold, the square of the denominator is a constant times a chi-square random variate.

The square of the denominator of the Welch t-test isn't (a constant times) a chi-square; however, it's often not too bad an approximation. A relevant discussion can be found here.

A more textbook-style derivation can be found here.


1
Great insight about the harmonic mean, which is more appropriate than arithmetic mean for averaging ratios.
Felipe G. Nievinski

10

What you are referring to is the Welch-Satterthwaite correction to the degrees of freedom. The t-test when the WS correction is applied is often called Welch's t-test. (Incidentally, this has nothing to do with SPSS, all statistical software will be able to conduct Welch's t-test, they just don't usually report both side by side by default, so you wouldn't necessarily be prompted to think about the issue.) The equation for the correction is very ugly, but can be seen on the Wikipedia page; unless you are very math savvy or a glutton for punishment, I don't recommend trying to work through it to understand the idea. From a loose conceptual standpoint however, the idea is relatively straightforward: the regular t-test assumes the variances are equal in the two groups. If they're not, then the test should not benefit from that assumption. Since the power of the t-test can be seen as a function of the residual degrees of freedom, one way to adjust for this is to 'shrink' the df somewhat. The appropriate df must be somewhere between the full df and the df of the smaller group. (As @Glen_b notes below, it depends on the relative sizes of s12/n1 vs s22/n2; if the larger n is associated with a sufficiently smaller variance, the combined df can be lower than the larger of the two df.) The WS correction finds the right proportion of way from the former to the latter to adjust the df. Then the test statistic is assessed against a t-distribution with that df.


For one t-test, SPSS reports the df as 26.608 but the n's for the two groups are 22 and 104. Are you sure about " The appropriate df must be somewhere between the full df and the df of the larger group"? (The standard deviations are 10.5 and 8.1 for the smaller and larger groups, respectively.)
Joel W.

2
It depends on the relative sizes of s12/n1 vs s22/n2. If the larger n is associated with a sufficiently larger variance, the combined d.f. can be lower than the larger of the two d.f. Note that the Welch t-test is only approximate, since the squared denominator is not actually a (scaled) chi-square random variate. However in practice it does quite well.
Glen_b -Reinstate Monica

I think I'll expand on the relationship between the relative sizes of the (si2/ni) and the Welch d.f. in an answer (since it won't fit in a comment).
Glen_b -Встановіть Моніку

1
@Glen_b, I'm sure that will be of great value here.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.