Як регресія, t-тест і ANOVA всі версії загальної лінійної моделі?


49

Відповіді:


47

Вважайте, що всі вони можуть бути записані як рівняння регресії (можливо, з дещо іншими інтерпретаціями, ніж їх традиційні форми).

Регресія:

Y=β0+β1Х(безперервний)+εде εN(0,σ2)

t-тест:

Y=β0+β1Х(фіктивний код)+εде εN(0,σ2)

ANOVA:

Y=β0+β1Х(фіктивний код)+εде εN(0,σ2)

Прототипічна регресія концептуалізована з як безперервна змінна. Однак єдине припущення, яке насправді зроблено щодо X, - це те, що це вектор відомих констант. Це може бути суцільна змінна, але це також може бути фіктивним кодом (тобто, вектором 01 ', який вказує, чи є спостереження членом зазначеної групи - наприклад, групи лікування). Таким чином, у другому рівнянні X може бути таким манекеновим кодом, і значення p було б таким самим, як у t-тесту в його більш традиційному вигляді. ХХ01Х

Сенс бета тут би різнився. У цьому випадку буде середнім для контрольної групи (для якої записи у фіксованій змінній дорівнюватимуть 0 's), а β 1 - різниця між середнім показником групи лікування та середнім показником контролю групи. β00β1

Тепер пам’ятайте, що цілком розумно мати / запускати ANOVA лише з двома групами (хоча t-тест був би більш поширеним), і у вас все три підключені. Якщо ви хочете бачити, як це буде працювати, якби у вас була ANOVA з 3 групами; це було б: Зауважте, що коли у вас є g груп, у вас є g - 1 фіктивних кодів для їх представлення. Референтна група (як правило, контрольна група) позначається, маючи 0 'длявсіхманекенових кодів (в даному випадку обидва фіктивний код 1 і макетний код 2). У цьому випадку ви не хочете інтерпретувати р-значення t-тестів для цих бета-файлів, які постачаються зі стандартним статистичним результатом - вони лише вказують, чи відрізняється зазначена група від контрольної групипри оцінці ізольовано

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10. Тобто ці тести не є незалежними. Натомість, ви хочете оцінити, чи змінюються засоби групи, побудувавши таблицю ANOVA та провевши F-тест. Для чого це варто, бета-інтерпретація трактується так само, як у версії t-тесту, описаній вище: - це середнє значення контрольної / контрольної групи, β 1 вказує на різницю між засобами групи 1 та референтною групою, а β 2 позначає різницю між групою 2 та референтною групою. β0β1β2

У світлі коментарів @ whuber, наведених нижче, вони також можуть бути представлені за допомогою матричних рівнянь:
Представлений таким чином, Y & ε - вектори довжини N , а β - вектор довжини p + 1 . X тепер є матрицею з N рядків та ( p + 1 ) стовпців. У прототипічній регресії у вас є p безперервні X змінні та перехоплення. Таким чином, ваш X

Y=Xβ+ε
YεNβp+1XN(p+1)pXXматриця складається з серії векторів стовпців поряд, по одному для кожної змінної , стовпцем 1 's вліво зліва для перехоплення. X1

Якщо ви таким чином представляєте ANOVA з групами, пам’ятайте, що у вас були б манекенні змінні g - 1, що вказують на групи, при цьому референтна група позначається спостереженням, що має 0 s у кожній макетній змінній. Як і вище, у вас все одно буде перехоплення. Таким чином, p = g - 1 . gg10p=g1


1
Рівняння ANOVA має сенс як ANOVA (а не t-тест), лише якщо інтерпретується як вектор і множиться праворуч. β1
whuber

Це не матричні рівняння; Я рідко використовую їх тут, оскільки багато людей їх не читають. Перша ANOVA являє собою ідентичну ситуацію, що і попередній t-тест. Я просто вказую, що якщо ви можете запустити 2-зразковий незалежний t-тест, ви можете запустити ті самі дані, що й ANOVA (які багато людей повинні розпізнати / запам'ятати зі свого статистичного класу 101). Я додаю ще одну версію ANOVA з 3 групами нижче, щоб уточнити, що ситуація з 2 групами не є єдиним випадком ANOVA, який можна зрозуміти як регресію; але рівняння reg тепер виглядає інакше - я намагався підтримувати більш явну паралель вище.
gung - Відновіть Моніку

Моя думка полягає в тому, що, якщо ви не зробите це матричним рівнянням, ваша характеристика ANOVA занадто обмежена, щоб бути корисною: вона ідентична вашій характеристиці t-тесту і тому є більш заплутаною, ніж корисною. Коли ви починаєте вводити більше груп, ви раптом змінюєте рівняння, яке також може бути менш зрозумілим. Чи хочете ви використовувати матричні позначення, звичайно, залежить від вас, але в інтересах доброго спілкування вам слід прагнути до послідовності.
whuber

Поясніть, будь ласка, трохи більше про те, як ви переходите від популярного визначення t-тесту до показаного рівняння. В основному я не можу зрозуміти, що тут Y (це може бути наївність чи менший IQ для статистики). Однак як перейти від t = (yx-u0) / s до цього рівняння.
Гаурав Сінгхал

Це не так, хоча це може бути вам незнайоме. є безперервним (і вважається умовно нормальним) у всіх перелічених випадках. Про X немає ніяких розподільних припущень , це може бути суцільна, дихотомна або багаторівнева категоріальна змінна. YX
gung - Відновити Моніку

16

Усі вони можуть бути записані як окремі випадки загальної лінійної моделі.

T-тест - це двовимірний випадок ANOVA. Якщо ви квадратєте статистику t-тесту, ви отримаєте відповідне у ANOVA.Ж

Модель ANOVA - це лише модель регресії, де рівні факторів представлені фіктивними (або індикаторними ) змінними .

Отже, якщо модель для t-тесту є підмножиною моделі ANOVA, а ANOVA є підмножиною моделі множинної регресії, сама регресія (та інші речі, крім регресії) - це підмножина загальної лінійної моделі , яка поширює регресію на більш загальна специфікація терміну помилки , ніж звичайний регресійного випадку (який є «незалежним» і «рівний дисперсією»), і в багатовимірному .Y


Ось приклад , який показує еквівалентність звичайного (рівного-дисперсії) два ственном зразку аналізу і оцінки гіпотез в моделі регресії, укладену в R (фактичні дані виглядає в парі, так що це на самому ділі не підходить аналіз) :т

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

Зверніть увагу на значення р 0,079 вище. Ось один із способів anova:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

Тепер про регресію:

> summary(lm(extra ~ group, data = sleep))

(деякий вихід видалено)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Порівняйте значення р у рядку 'group2', а також p-значення для F-тесту в останньому рядку. Для двосхилого тесту вони однакові і обидва відповідають результату t-тесту.

Далі, коефіцієнт для 'group2' являє собою різницю середніх значень для двох груп.


Маючи однакові значення p у всіх трьох сценаріях, це магічно та вражаюче, однак, якщо ви могли б пояснити трохи більше про те, як розраховуються ці p-значення, це, безумовно, зробить цю відповідь цікавішою . Я не знаю, чи відображення розрахунків p-значення також зробить його і кориснішим , так що ви могли вирішити щось.
Гаурав Сінгал

@Gaurav Значення р однакові, тому що ви тестуєте ту саму гіпотезу на одній і тій же моделі, просто представлену трохи по-іншому. Якщо вас цікавить, як розраховується якесь конкретне p-значення, це було б новим питанням (це не буде відповіді на запитання тут). Ви можете задати таке питання, хоча спробуйте спочатку здійснити пошук, оскільки на нього вже можна відповісти.
Glen_b

Дякую @Glen_b, вибачте за те, що задали очевидне запитання, і це теж не найкращим чином. А ви все ж відповіли на моє запитання - "однакова гіпотеза щодо тієї ж моделі (та / або даних)". Я не надто роздумував над тим, як вони перевіряють ту саму гіпотезу. Спасибі
Gaurav Singhal

2

Ця відповідь, яку я опублікував раніше, є дещо актуальною, але це питання дещо інше.

[Y1Yн]=[1х11х21х31хн][α0α1]+[ε1εн]
[Y1Yн]=[10001000010001000010][α0αк]+[ε1εн]

2
Деякі описи та коментарі до питань будуть корисними для читачів, оскільки тепер вони мають здогадуватися, звідки вони взялися і як вони ставляться до питання ...
Тім

0

Anova схожий на t-тест на рівність засобів при допущенні невідомих, але однакових відмінностей між методами лікування. Це пояснюється тим, що в ANOVA MSE є ідентичним зведеним варіантом, використовуваним у t-тесті. Існують і інші версії t-тесту, такі як одна для нерівних варіацій і пара-t-тест. З цього погляду t-тест може бути більш гнучким.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.