Як вони всі версії одного основного статистичного методу?
Як вони всі версії одного основного статистичного методу?
Відповіді:
Вважайте, що всі вони можуть бути записані як рівняння регресії (можливо, з дещо іншими інтерпретаціями, ніж їх традиційні форми).
Регресія:
t-тест:
ANOVA:
Прототипічна регресія концептуалізована з як безперервна змінна. Однак єдине припущення, яке насправді зроблено щодо X, - це те, що це вектор відомих констант. Це може бути суцільна змінна, але це також може бути фіктивним кодом (тобто, вектором 0 'і 1 ', який вказує, чи є спостереження членом зазначеної групи - наприклад, групи лікування). Таким чином, у другому рівнянні X може бути таким манекеновим кодом, і значення p було б таким самим, як у t-тесту в його більш традиційному вигляді.
Сенс бета тут би різнився. У цьому випадку буде середнім для контрольної групи (для якої записи у фіксованій змінній дорівнюватимуть 0 's), а β 1 - різниця між середнім показником групи лікування та середнім показником контролю групи.
Тепер пам’ятайте, що цілком розумно мати / запускати ANOVA лише з двома групами (хоча t-тест був би більш поширеним), і у вас все три підключені. Якщо ви хочете бачити, як це буде працювати, якби у вас була ANOVA з 3 групами; це було б: Зауважте, що коли у вас є g груп, у вас є g - 1 фіктивних кодів для їх представлення. Референтна група (як правило, контрольна група) позначається, маючи 0 'длявсіхманекенових кодів (в даному випадку обидва фіктивний код 1 і макетний код 2). У цьому випадку ви не хочете інтерпретувати р-значення t-тестів для цих бета-файлів, які постачаються зі стандартним статистичним результатом - вони лише вказують, чи відрізняється зазначена група від контрольної групипри оцінці ізольовано
У світлі коментарів @ whuber, наведених нижче, вони також можуть бути представлені за допомогою матричних рівнянь:
Представлений таким чином, Y & ε - вектори довжини N , а β - вектор довжини p + 1 . X тепер є матрицею з N рядків та ( p + 1 ) стовпців. У прототипічній регресії у вас є p безперервні X змінні та перехоплення. Таким чином, ваш X
Якщо ви таким чином представляєте ANOVA з групами, пам’ятайте, що у вас були б манекенні змінні g - 1, що вказують на групи, при цьому референтна група позначається спостереженням, що має 0 s у кожній макетній змінній. Як і вище, у вас все одно буде перехоплення. Таким чином, p = g - 1 .
Усі вони можуть бути записані як окремі випадки загальної лінійної моделі.
T-тест - це двовимірний випадок ANOVA. Якщо ви квадратєте статистику t-тесту, ви отримаєте відповідне у ANOVA.
Модель ANOVA - це лише модель регресії, де рівні факторів представлені фіктивними (або індикаторними ) змінними .
Отже, якщо модель для t-тесту є підмножиною моделі ANOVA, а ANOVA є підмножиною моделі множинної регресії, сама регресія (та інші речі, крім регресії) - це підмножина загальної лінійної моделі , яка поширює регресію на більш загальна специфікація терміну помилки , ніж звичайний регресійного випадку (який є «незалежним» і «рівний дисперсією»), і в багатовимірному .
Ось приклад , який показує еквівалентність звичайного (рівного-дисперсії) два ственном зразку аналізу і оцінки гіпотез в моделі регресії, укладену в R (фактичні дані виглядає в парі, так що це на самому ділі не підходить аналіз) :
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Зверніть увагу на значення р 0,079 вище. Ось один із способів anova:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Тепер про регресію:
> summary(lm(extra ~ group, data = sleep))
(деякий вихід видалено)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Порівняйте значення р у рядку 'group2', а також p-значення для F-тесту в останньому рядку. Для двосхилого тесту вони однакові і обидва відповідають результату t-тесту.
Далі, коефіцієнт для 'group2' являє собою різницю середніх значень для двох груп.
Anova схожий на t-тест на рівність засобів при допущенні невідомих, але однакових відмінностей між методами лікування. Це пояснюється тим, що в ANOVA MSE є ідентичним зведеним варіантом, використовуваним у t-тесті. Існують і інші версії t-тесту, такі як одна для нерівних варіацій і пара-t-тест. З цього погляду t-тест може бути більш гнучким.