Різниця між регресійним аналізом та аналізом дисперсії?


21

Я зараз навчаюсь регресійному аналізу та дисперсійному аналізу.

При регресійному аналізі у вас є фіксована одна змінна, і ви хочете знати, як ця змінна йде з іншою змінною.

При аналізі дисперсії ви хочете дізнатися, наприклад: Якщо ця специфічна тваринна їжа впливає на вагу тварин ... Так одна фіксована вара та вплив на інші ...

Це правильно чи неправильно, будь ласка, допоможіть мені ...

Відповіді:


25

Припустимо, ваш набір даних складається з набору для і ви хочете подивитися на залежність від .i = 1 , , n y x(xi,yi)i=1,,nyx

Припустимо, ви знайдете значення і of та які мінімізують залишкову суму квадратів Тоді ви берете як передбачуване -значення для будь-якого (не обов'язково вже спостерігається) -значення. Це лінійна регресія. ; & beta ; & alpha& beta ; п Σ я=1(уя-(& alpha+& betaхя))2. У = α + β хуйα^β^αβ

i=1n(yi(α+βxi))2.
y^=α^+β^xyx

Тепер розглянемо розкладання загальної суми квадратів з ступінь свободи на "пояснені" та "нез'ясовані" частини: з і ступенями свободи відповідно. Це аналіз дисперсії, а потім розглядаються такі речі, як F-статистика Це п-1 п Σ я = 1 ( ( α + β х я ) - ˉ у ) 2 пояснено+ п Σ я = 1 ( у я - ( α + β х я ) ) 2 непоясненим. 1n-2F= n i =

i=1n(yiy¯)2where y¯=y1++ynn
n1
i=1n((α^+β^xi)y¯)2explained + i=1n(yi(α^+β^xi))2unexplained.
1n2β=0
Ж=i=1н((α^+β^хi)-у¯)2/1i=1н(уi-(α^+β^хi))2/(н-2).
F-статистика перевіряє нульову гіпотезу .β=0

Часто вперше стикається з терміном "аналіз дисперсії", коли предиктор є категоричним, так що ви підходите до моделі де визначає, яка категорія є значенням . Якщо є категорії, ви отримаєте ступінь свободи в чисельнику в F-статистиці, і зазвичай ступені свободи в знаменнику. Але відмінність між регресією та аналізом дисперсії все ж однакова для цієї моделі. i k k - 1 n - k

у=α+βi
iкк-1н-к

Пара додаткових балів:

  • Деяким математикам з наведеного вище опису може здатися, що все поле - це лише те, що бачиться вище, тому може здатися загадковим, що і регресія, і аналіз дисперсії є активними напрямами досліджень. Є багато, що не впишеться у відповідь, відповідну для публікації тут.
  • Існує популярна і спокуслива помилка, яка полягає в тому, що вона називається "лінійною", тому що графік - це рядок. Це помилково. Один з моїх попередніх відповідей пояснює, чому це все ще називають "лінійною регресією", коли ви встановлюєте поліном через найменші квадрати.у=α+βх

5
@MichaelHardy Хоча розпад дисперсії на компоненти в регресії часто називають аналізом дисперсійної таблиці. Це не те, що статистики зазвичай означають під ANOVA. Методи 1) лінійна регресія, 2) аналіз дисперсії та 3) аналіз коваріації є категоріями під загальним заголовком загальної лінійної моделі, лінійна регресія включає безперервні коваріати, ANOVA включає лише дискретні групи і ANCOVA - це комбінація безперервних коваріатів і дискретні групи.
Майкл Р. Черник

1
Неофіційно іноді так говорять, і моя відповідь не говорила про це, але слід знати, що (1) оцінка найменших квадратів коефіцієнтів проводиться в будь-якій з двох задач (суцільних або категоричних предикторів) та декомпозиції суми квадратів з відповідними ступенями свободи --- таблиця anova --- також робиться в будь-якій з двох задач.
Майкл Харді

5
Після цієї поступки ви повинні визнати, що в моїй відповіді немає нічого поганого. Також терміни ANOVA, ANCOVA та регресія не є неофіційними термінами. Вони дуже виразно формальні, і неправильно сказати ОП, що ANOVA - це розпад дисперсії в регресії. Те, що статистична процедура, яку хтось назвав anova, може робити будь-яку лінійну модель, нічого не підтверджує. У SAS proc reg йдеться лише про регресію, proc anova займається лише аналізом дисперсії, як я її визначив, і proc glm - це те, що робить і те, і інше.
Майкл Р. Черник

1
.... і в R "lm (....)" дає коефіцієнти регресії в обох ситуаціях, а "anova (lm (....))" дає розкладання суми квадрата і ступенів свободи, в обох ситуаціях. Що стосується "доведеться поступитися", я поставив кілька додаткових коментарів нижче вашої відповіді. Звичайно, якщо ви збираєтесь згадати логістичну регресію, було б зрозуміліше, якби ви сказали, що як тільки ви не говорите про лінійну регресію, слово "регресія" - це дуже широке поняття, яке може включати багато речей.
Майкл Харді

@MichaelHardy Не соромтесь коментувати моє питання, порушене на сайті stats.SE. Я думаю, що ваша відповідь і моя відповідь на це запитання є певним чином правильними. Я, безумовно, заперечую проти того, щоб моя відповідь була скасована. Я хотів отримати думку інших із статистичної спільноти з цього приводу.
Майкл Р. Черник

5

Основна відмінність - змінна відповідь. Хоча логістична регресія стосується двійкової відповіді в лінійному регресійному аналізі, а також нелінійної регресії, змінна реакції є безперервною. У вас є змінна (и) (aka covariate (s)), які мають функціональне відношення до змінної безперервної відповіді. При аналізі дисперсії реакція є постійною, але належить до декількох різних категорій (наприклад, група лікування та контрольна група). При аналізі дисперсії ви шукаєте різницю середньої реакції між групами. У лінійній регресії ви дивитесь на те, як змінюється реакція, коли змінюються коваріати. Інший спосіб поглянути на різницю полягає в тому, щоб сказати, що при регресії коваріати є безперервними, тоді як при аналізі дисперсії вони є дискретним набором груп.


6
Я б вважав, що питання означає різницю між лінійною регресією та аналізом дисперсії; введення логістичного регресу, здається, відходить від теми. Однак ваше останнє речення неправильне. Аналіз дисперсії може бути здійснений незалежно від того, чи є передбачувачі дискретні чи безперервні.
Майкл Харді

1
Дійсні прогнози в аналізі дисперсії. У вашому прикладі предиктор категоричний, але це не повинно бути таким. Аналіз дисперсії не враховує лише проблеми, що стосуються "дискретних груп".
Майкл Харді

3
@MichaelHardy Я роблю крок назад, тому що коли я перевіряю свої статистичні енциклопедії, я знаходжу посилання на аналіз дисперсії з точки зору декомпозиції дисперсії в загальній лінійній моделі. Але термін має два значення і досить часто ANOVA відрізняється від ANCOVA та регресії у способі, який я описав. Таким чином, ОП повинен знати як терміни, той, що стосується висновку про дисперсійні компоненти в загальній лінійній моделі, так і той, що стосується підкласу лінійних моделей, що включають лише дискретні групи.
Майкл Р. Черник

2
Я думаю про використання, яке ви використовуєте як неформальне. Це здається дивним , кажучи логістичну регресію , не кажучи , що це всього лише один з безлічі «регрессий», коли цей термін використовується в широкому сенсі оцінки середньої або прогнозоване значення однієї змінної заданої інший, а потім розрізняти , що від дисперсійного аналізу . Але питання про різницю між моделями лінійної регресії та аналізом дисперсії видається більш розумним питанням. Але часто виникають невизначеності щодо того, що задумав оригінальний плакат.
Майкл Харді

7
Якими б не були ваші наміри, я вважаю, що коментар "У мене є доктор наук зі статистики, ... " коментар є недоречним. Перш за все, це нічого не робить для вирішення проблеми. Звернення до влади - це часто використовуваний, але дуже хибний підхід до доказування речей. Звернення до власних повноважень ще більш проблематично. Це також можна трактувати як виявлення (ненавмисно чи іншим чином) відсутності поваги до @MichaelHardy (особистої особи, до якої ви звертаєтесь), яка також має доктор статистичних наук із дуже авторитетної програми.
кардинал

2

Аналіз дисперсії (ANOVA) - це сукупність статистичних методів аналізу спостережень, що вважаються структурою

уi=β1хi1+β2хi2++βpхip+еi, i=1(1)нpβ1,β2,,βpе1,е2,,енхijеi0σ2

Е(ун×1)=Хβ,D(у)=σ2Ян

хijβjхijβj01

хijтТт2,е-Т

В основному, це два види аналізу.


i=1(1)н

1
i=1(1)нi=1,2,,н

-1

При регресійному аналізі у вас є фіксована одна змінна, і ви хочете знати, як ця змінна йде з іншою змінною.

При аналізі дисперсії ви хочете дізнатися, наприклад: Якщо ця специфічна тваринна їжа впливає на вагу тварин ... Так одна фіксована вара та вплив на інші.


1
Привіт Айза, ласкаво просимо до SE. Вам потрібно відредагувати це, щоб надати більше контексту та дати зрозуміти, що це питання насправді.
Зупиніть закрити запитання швидко
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.