Різниця між регресійним аналізом та аналізом дисперсії?

21

Я зараз навчаюсь регресійному аналізу та дисперсійному аналізу.

При регресійному аналізі у вас є фіксована одна змінна, і ви хочете знати, як ця змінна йде з іншою змінною.

При аналізі дисперсії ви хочете дізнатися, наприклад: Якщо ця специфічна тваринна їжа впливає на вагу тварин ... Так одна фіксована вара та вплив на інші ...

Це правильно чи неправильно, будь ласка, допоможіть мені ...

regression

— Ле Макс
джерело

25

Припустимо, ваш набір даних складається з набору для і ви хочете подивитися на залежність від . $(x_i,y_i)$ $i=1,\ldots,n$ $y$ $x$

Припустимо, ви знайдете значення і of та які мінімізують залишкову суму квадратів Тоді ви берете як передбачуване -значення для будь-якого (не обов'язково вже спостерігається) -значення. Це лінійна регресія. $\hat\alpha$ $\hat\beta$ $\alpha$ $\beta$

\sum_{i = 1}^{n} (y_{i} - (α + β x_{i}))^{2} .

$\sum_{i=1}^n (y_i - (\alpha+\beta x_i))^2.$

\hat{y} = \hat{α} + \hat{β} x

$\hat y = \hat\alpha+ \hat\beta x$

y

$y$

x

$x$

Тепер розглянемо розкладання загальної суми квадратів з ступінь свободи на "пояснені" та "нез'ясовані" частини: з і ступенями свободи відповідно. Це аналіз дисперсії, а потім розглядаються такі речі, як F-статистика Це

\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} where \bar{y} = \frac{y_{1} + \dots + y_{n}}{n}

$\sum_{i=1}^n (y_i - \bar y)^2 \qquad\text{where }\bar y = \frac{y_1+\cdots+y_n}{n}$

n - 1

$n-1$

\underset{explained}{\underset{⏟}{\sum_{i = 1}^{n} ((\hat{α} + \hat{β} x_{i}) - \bar{y})^{2}}} + \underset{unexplained}{\underset{⏟}{\sum_{i = 1}^{n} (y_{i} - (\hat{α} + \hat{β} x_{i}))^{2}}} .

$\underbrace{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2}_{\text{explained}}\ +\ \underbrace{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2}_{\text{unexplained}}.$

1

$1$

n - 2

$n-2$

Ж = \frac{\sum_{i = 1}^{н} ((\hat{α} + \hat{β} х_{i}) - \bar{у})^{2} / 1}{\sum_{i = 1}^{н} (у_{i} - (\hat{α} + \hat{β} х_{i}))^{2} / (н - 2)} .

$F = \frac{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2/1}{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2/(n-2)}.$ F-статистика перевіряє нульову гіпотезу .

β = 0

$\beta=0$

Часто вперше стикається з терміном "аналіз дисперсії", коли предиктор є категоричним, так що ви підходите до моделі де визначає, яка категорія є значенням . Якщо є категорії, ви отримаєте ступінь свободи в чисельнику в F-статистиці, і зазвичай ступені свободи в знаменнику. Але відмінність між регресією та аналізом дисперсії все ж однакова для цієї моделі.

у = α + β_{i}

$y = \alpha + \beta_i$

i

$i$

k

$k$

k - 1

$k-1$

n - k

$n-k$

Пара додаткових балів:

Деяким математикам з наведеного вище опису може здатися, що все поле - це лише те, що бачиться вище, тому може здатися загадковим, що і регресія, і аналіз дисперсії є активними напрямами досліджень. Є багато, що не впишеться у відповідь, відповідну для публікації тут.
Існує популярна і спокуслива помилка, яка полягає в тому, що вона називається "лінійною", тому що графік - це рядок. Це помилково. Один з моїх попередніх відповідей пояснює, чому це все ще називають "лінійною регресією", коли ви встановлюєте поліном через найменші квадрати. $y=\alpha+\beta x$

— Майкл Харді
джерело

5

@MichaelHardy Хоча розпад дисперсії на компоненти в регресії часто називають аналізом дисперсійної таблиці. Це не те, що статистики зазвичай означають під ANOVA. Методи 1) лінійна регресія, 2) аналіз дисперсії та 3) аналіз коваріації є категоріями під загальним заголовком загальної лінійної моделі, лінійна регресія включає безперервні коваріати, ANOVA включає лише дискретні групи і ANCOVA - це комбінація безперервних коваріатів і дискретні групи.

— Майкл Р. Черник

1

Неофіційно іноді так говорять, і моя відповідь не говорила про це, але слід знати, що (1) оцінка найменших квадратів коефіцієнтів проводиться в будь-якій з двох задач (суцільних або категоричних предикторів) та декомпозиції суми квадратів з відповідними ступенями свободи --- таблиця anova --- також робиться в будь-якій з двох задач.

— Майкл Харді

5

Після цієї поступки ви повинні визнати, що в моїй відповіді немає нічого поганого. Також терміни ANOVA, ANCOVA та регресія не є неофіційними термінами. Вони дуже виразно формальні, і неправильно сказати ОП, що ANOVA - це розпад дисперсії в регресії. Те, що статистична процедура, яку хтось назвав anova, може робити будь-яку лінійну модель, нічого не підтверджує. У SAS proc reg йдеться лише про регресію, proc anova займається лише аналізом дисперсії, як я її визначив, і proc glm - це те, що робить і те, і інше.

— Майкл Р. Черник

1

.... і в R "lm (....)" дає коефіцієнти регресії в обох ситуаціях, а "anova (lm (....))" дає розкладання суми квадрата і ступенів свободи, в обох ситуаціях. Що стосується "доведеться поступитися", я поставив кілька додаткових коментарів нижче вашої відповіді. Звичайно, якщо ви збираєтесь згадати логістичну регресію, було б зрозуміліше, якби ви сказали, що як тільки ви не говорите про лінійну регресію, слово "регресія" - це дуже широке поняття, яке може включати багато речей.

— Майкл Харді

@MichaelHardy Не соромтесь коментувати моє питання, порушене на сайті stats.SE. Я думаю, що ваша відповідь і моя відповідь на це запитання є певним чином правильними. Я, безумовно, заперечую проти того, щоб моя відповідь була скасована. Я хотів отримати думку інших із статистичної спільноти з цього приводу.

— Майкл Р. Черник

5

Основна відмінність - змінна відповідь. Хоча логістична регресія стосується двійкової відповіді в лінійному регресійному аналізі, а також нелінійної регресії, змінна реакції є безперервною. У вас є змінна (и) (aka covariate (s)), які мають функціональне відношення до змінної безперервної відповіді. При аналізі дисперсії реакція є постійною, але належить до декількох різних категорій (наприклад, група лікування та контрольна група). При аналізі дисперсії ви шукаєте різницю середньої реакції між групами. У лінійній регресії ви дивитесь на те, як змінюється реакція, коли змінюються коваріати. Інший спосіб поглянути на різницю полягає в тому, щоб сказати, що при регресії коваріати є безперервними, тоді як при аналізі дисперсії вони є дискретним набором груп.

— Майкл Р. Черник
джерело

6

Я б вважав, що питання означає різницю між лінійною регресією та аналізом дисперсії; введення логістичного регресу, здається, відходить від теми. Однак ваше останнє речення неправильне. Аналіз дисперсії може бути здійснений незалежно від того, чи є передбачувачі дискретні чи безперервні.

— Майкл Харді

1

Дійсні прогнози в аналізі дисперсії. У вашому прикладі предиктор категоричний, але це не повинно бути таким. Аналіз дисперсії не враховує лише проблеми, що стосуються "дискретних груп".

— Майкл Харді

3

@MichaelHardy Я роблю крок назад, тому що коли я перевіряю свої статистичні енциклопедії, я знаходжу посилання на аналіз дисперсії з точки зору декомпозиції дисперсії в загальній лінійній моделі. Але термін має два значення і досить часто ANOVA відрізняється від ANCOVA та регресії у способі, який я описав. Таким чином, ОП повинен знати як терміни, той, що стосується висновку про дисперсійні компоненти в загальній лінійній моделі, так і той, що стосується підкласу лінійних моделей, що включають лише дискретні групи.

— Майкл Р. Черник

2

Я думаю про використання, яке ви використовуєте як неформальне. Це здається дивним , кажучи логістичну регресію , не кажучи , що це всього лише один з безлічі «регрессий», коли цей термін використовується в широкому сенсі оцінки середньої або прогнозоване значення однієї змінної заданої інший, а потім розрізняти , що від дисперсійного аналізу . Але питання про різницю між моделями лінійної регресії та аналізом дисперсії видається більш розумним питанням. Але часто виникають невизначеності щодо того, що задумав оригінальний плакат.

— Майкл Харді

7

Якими б не були ваші наміри, я вважаю, що коментар "У мене є доктор наук зі статистики, ... " коментар є недоречним. Перш за все, це нічого не робить для вирішення проблеми. Звернення до влади - це часто використовуваний, але дуже хибний підхід до доказування речей. Звернення до власних повноважень ще більш проблематично. Це також можна трактувати як виявлення (ненавмисно чи іншим чином) відсутності поваги до @MichaelHardy (особистої особи, до якої ви звертаєтесь), яка також має доктор статистичних наук із дуже авторитетної програми.

— кардинал

2

Аналіз дисперсії (ANOVA) - це сукупність статистичних методів аналізу спостережень, що вважаються структурою

$y_i=\beta_1x_{i1}+\beta_2x_{i2}+\dots+\beta_px_{ip}+e_i,~i=1(1)n$ $p$ $\beta_1,\beta_2,\dots,\beta_p$ $e_1,e_2,\dots,e_n$ $x_{ij}$ $e_i$ $0$ $\sigma^2$

$E(y^{n \times 1})=X\beta,D(y)=\sigma^2I_n$

$x_{ij}$ $\beta_j$ $x_{ij}$ $\beta_j$ $0$ $1$

$x_{ij}$ $t$ $T$ $t^2,e^{-T}$

В основному, це два види аналізу.

— Арга
джерело

i = 1 (1) n

$i=1(1)n$

1

i = 1 (1) n

$i=1(1)n$

i = 1, 2, \dots, n

$i=1,2,\dots,n$

-1

При регресійному аналізі у вас є фіксована одна змінна, і ви хочете знати, як ця змінна йде з іншою змінною.

При аналізі дисперсії ви хочете дізнатися, наприклад: Якщо ця специфічна тваринна їжа впливає на вагу тварин ... Так одна фіксована вара та вплив на інші.

— Айза
джерело

1

Привіт Айза, ласкаво просимо до SE. Вам потрібно відредагувати це, щоб надати більше контексту та дати зрозуміти, що це питання насправді.

— Зупиніть закрити запитання швидко