Різниця між припущеннями, що лежать в основі кореляції, і значущі тести регресійного нахилу


21

Моє запитання виріс із обговорення з @whuber в коментарях до іншого питання .

Зокрема, коментар @whuber був такий:

Однією з причин, яка може вас здивувати, є те, що припущення, що лежать в основі тесту кореляції та тесту регресійного нахилу, різні - тож навіть коли ми розуміємо, що кореляція та нахил дійсно вимірюють одне і те ж, чому їхні р-значення повинні бути однаковими? Це показує, як ці питання йдуть глибше, ніж просто, чи повинні r та β бути чисельними рівними.

Це задумалося про це, і я натрапив на різноманітні цікаві відповіді. Наприклад, я знайшов це питання " Припущення про коефіцієнт кореляції ", але не можу зрозуміти, як це пояснить коментар вище.

Я знайшов більш цікаві відповіді про взаємозв'язок Пірсона rта нахилу β у простій лінійній регресії (див. Тут і тут, наприклад), але жодна з них, схоже, не відповідає тому, на що посилається @whuber у своєму коментарі (принаймні, не очевидно, що мене).

Питання 1: Які припущення лежать в основі кореляційного тесту та тесту регресійного нахилу?

Для мого 2-го питання розгляньте такі результати у R:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

І вихід cor.test()функції:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

Як видно з результатів lm()та cov.test()результатів, коефіцієнт кореляції Пірсона та оцінка нахилу ( β 1 ) значною мірою відрізняються, 0,96 проти 0,485 відповідно, але значення t і p-значення однакові.rβ1

Потім я також спробував побачити, чи зможу я обчислити значення t для та β 1 , які однакові, незважаючи на те, що r і β 1 відрізняються. І ось там я застряг, принаймні, за r :rβ1rβ1r

Обчисліть нахил ( ) за простою лінійною регресією, використовуючи загальні суми квадратів x і y :β1xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

Обчисліть оцінку найменшого квадрату нахилу регресії, (це є доказом цього в книзі Кроулі R Book 1-е видання , стор. 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

Обчисліть стандартну помилку для :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

І t-значення і p-значення для :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

Що я не знаю на даний момент, і це питання 2 , як обчислити одне і те ж значення, використовуючи замість β 1 (можливо, у кроковій формі)?rβ1

Я припускаю, що оскільки cor.test()альтернативна гіпотеза полягає в тому, чи справжня кореляція не дорівнює 0 (див. cor.test()Вихідний результат), я б очікував щось подібне на коефіцієнт кореляції Пірсона поділене на "стандартну помилку коефіцієнта кореляції Пірсона" (подібно до вище) ?! Але що це за стандартна помилка і чому?rb1/se.b1

Може, це має щось спільне з вищезгаданими припущеннями, що лежать в основі кореляційного тесту та тесту регресійного нахилу ?!

EDIT (27 липня 2017 р.): Хоча @whuber дав дуже детальне пояснення до питання 1 (і частково питання 2 , див. Коментарі під його відповіддю), я здійснив подальше копання і виявив, що ці два повідомлення ( тут і тут ) роблять показати конкретну стандартну помилку для , яка добре відповідає на питання 2 , тобто відтворити значення t, задане r :rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

2
Це той самий тест або принаймні еквівалентний тест. Якщо ви відкидаєте гіпотезу, що кореляція не дорівнює нулю, тест також відкидає гіпотезу про те, що нахил не дорівнює нулю.
Майкл Р. Черник

6
@Michael Right - але тут є багато потенційних моделей, і вони разюче відрізняються. Один з них - це стандартна модель кореляції, найпростішою з яких є те, що дані є вибіркою з деякого невідомого двовимірного нормального розподілу. Ще одна версія OLS-моделі для регресії проти X - у двох ароматах, фіксованих регресорах та випадкових регресорах. Інший змінює ролі X і Y . Якщо ви відчуваєте, що вони повинні створювати однакові значення р для порівняльних тестів на гіпотезу, це, мабуть, лише завдяки широкому знайомству, але це не очевидно! YXXY
whuber

1
@whuber Побачивши, що цей Q так добре оцінений, але йому не вистачає задовільної відповіді, я розпочав щедроту, яка закінчилася раніше сьогодні; зараз у пільговому періоді. Один новий відповідь був опублікований, і він добре пояснює розрахунки кореляції як нахилу, але стверджує, що різниці в припущеннях немає, всупереч вашому цитованому твердженню. Моя щедрість буде автоматично присвоєна цій новій відповіді, якщо не з’явиться інша. Я повідомляю вас про те, якщо ви також подумаєте опублікувати власну відповідь.
амеба каже, що повернеться Моніка

1
@amoeba Дякую; Я ще не помітив щедрості. Я опублікував часткове повідомлення про те, що мав на увазі, коли писав зауваження, яке викликало це питання. Я сподіваюся, що це означає деякий прогрес у запропонованому вами напрямку.
whuber

Відповіді:


5

Вступ

Ця відповідь стосується основної мотивації для цього набору питань:

Які припущення лежать в основі кореляційного тесту та тесту регресійного нахилу?

Однак, зважаючи на передумови, що містяться у питанні, я хотів би запропонувати трохи розширити це питання: давайте вивчимо різні цілі та концепції кореляції та регресії.

Кореляція зазвичай застосовується в ситуаціях, коли

  • Дані є неоднаковими: з кожним «предметом» чи «спостереженням» пов'язано рівно два чітких значення інтересу.

  • Дані є спостережливими: експериментатор не встановив жодної зі значень. Обидва спостерігали або вимірювали.

  • Інтерес полягає у виявленні, кількісній оцінці та тестуванні певного зв'язку між змінними.

Регресія використовується де

  • Дані є біваріантними або багатоваріантними: може бути більше двох різних цінностей, що цікавлять.

  • Інтерес зосереджується на розумінні того, що можна сказати про підмножину змінних - "залежні" змінні або "відповіді" - на основі того, що може бути відомо про інший підмножині - "незалежних" змінних або "регресорів".

  • Експериментатор, можливо, встановив конкретні значення регресорів.

Ці різні цілі та ситуації призводять до різних підходів. Оскільки ця нитка стурбована їх подібністю, давайте зосередимось на тому випадку, коли вони найбільш схожі: двовимірні дані. У будь-якому випадку ці дані зазвичай моделюються як реалізація випадкової величини . Взагалі, обидві форми аналізу шукають відносно прості характеристики цієї змінної.(Х,Y)

Кореляція

Я вважаю, що "кореляційний аналіз" ніколи не був визначений загалом. Чи слід обмежуватися обчисленням коефіцієнтів кореляції, чи це можна вважати більш широко таким, що містить PCA, кластерний аналіз та інші форми аналізу, що стосуються двох змінних? Незалежно від того, чи ваша точка зору обмежена або обмежена, можливо, ви погоджуєтесь, що стосується наступного опису:

Кореляція - це аналіз, який робить припущення щодо розподілу , не привілейовуючи жодної змінної, і використовує дані, щоб зробити більш конкретні висновки щодо цього розподілу.(Х,Y)

Наприклад, ви можете почати з того, що має двовимірний нормальний розподіл і використовувати коефіцієнт кореляції Пірсона для оцінки одного з параметрів цього розподілу. Це одна з найбільш вузьких (і найдавніших) концепцій кореляції.(X,Y)

Як інший приклад, ви можете припустити, що може мати будь-яке розповсюдження і використовувати кластерний аналіз для ідентифікації k "центрів". Можна вважати, що це початок роздільної здатності розподілу ( X , Y ) у суміш одномодальних двовимірних розподілів, по одному для кожного кластеру.(X,Y)k(X,Y)

Одне, що є загальним для всіх цих підходів, - це симетричне трактування і Y : жоден привілейований перед іншим. Обидва грають рівноцінні ролі.XY

Регресія

Регресія має чітке, загальновизнане визначення:

Регресія характеризує умовний розподіл (відповідь), заданий X (регресором).YX

Історично регресія простежує коріння до відкриття Галтона (1885 р.), Що двовимірні нормальні дані користуються лінійною регресією: умовне очікування Y є лінійною функцією X(X,Y)YX . На одному полюсі спеціальної-загальному спектрі звичайний метод найменших квадратів (МНК) регресії , де умовний розподіл передбачається Нормальний ( β 0 + & beta ; 1 X , сг 2 ) для фіксованих параметрів β 0 , β 1 , і σY(β0+β1X,σ2)β0,β1,σ слід оцінювати з даних.

На надзвичайно загальному кінці цього спектру знаходяться узагальнені лінійні моделі, узагальнені моделі добавок та інші, які розслаблюють усі аспекти OLS: очікування, дисперсія та навіть форма умовного розподілу можуть дозволяти змінюватися нелінійно з X . Концепція , яка виживає все це узагальнення є те , що інтерес залишається зосереджені на розумінні того, як Y залежить від X . Та фундаментальна асиметрія все ще існує.YXYX

Кореляція та регресія

Одна дуже особлива ситуація є спільною для обох підходів і часто зустрічається: двоваріантна нормальна модель. У цій моделі розсип даних набуде класичної форми "футбольної", овальної або сигарної форми: дані поширюються еліптично навколо ортогональної пари осей.

  • Кореляційний аналіз зосереджується на "силі" цього взаємозв'язку, в тому сенсі, що відносно невелике поширення навколо основної осі "сильне".

  • Як зазначалося вище, регресія на X (і, однаково, регресія X на Y ) лінійна : умовне очікування відповіді є лінійною функцією регресора.YXXY

(Варто розмірковувати про чіткі геометричні відмінності між цими двома описами: вони висвітлюють основні статистичні відмінності.)

З п’яти біваріантних нормальних параметрів (два засоби, два розвороти та ще один, який вимірює залежність між двома змінними) один представляє спільний інтерес: п’ятий параметр, . Це безпосередньо (і просто) пов'язане з цимρ

  1. Коефіцієнт в регресії Y на X .XYX

  2. Коефіцієнт в регресії X на Y .YXY

  3. Умовні дисперсії в будь-якій з регресій та ( 2 ) .(1)(2)

  4. Розкиди навколо осей еліпса (вимірюються як дисперсії).(X,Y)

Кореляційний аналіз фокусується на , без виділення ролі X і Y .(4)XY

Регресійний аналіз зосереджується на версіях - ( 3 ), що відповідають вибору змінних регресора та реакції.(1)(3)

В обох випадках гіпотеза грає особливу роль: вона вказує на відсутність кореляції, а також не на змінуH0:ρ=0 щодо X . Тому що (в цій простій ситуації) і імовірнісна модель і нульова гіпотеза є загальними для кореляції і регресії, воно не повинно бути дивнощо обидва методи мають загальний інтерес в тій же статистиці (будьназивається « г » або « β »); що розподіл нульової вибірки цих статистичних даних є однаковим; і, отже, тести гіпотез можуть давати однакові p-значення.YXrβ^

Це поширене застосування, яке перше, кого хтось вивчає, може ускладнити визнання того, наскільки різними є кореляція та регресія в їх концепціях та цілях. Лише коли ми дізнаємося про їх узагальнення, виявляються основні відмінності. Було б важко трактувати GAM як такий, що дає багато інформації про "кореляцію", так само як було б важко оформити кластерний аналіз як форму "регресії". Два - це різні групи процедур з різними цілями, кожна з яких корисна сама по собі, якщо застосовується належним чином.


Я сподіваюся , що це досить загальний характер і кілька розпливчасто огляд висвітлив деякі із способів , в яких «ці питання йдуть глибше , ніж просто чи і β повинні бути чисельно рівні.» Оцінка цих відмінностей допомогла мені зрозуміти, які різні методи намагаються виконати, а також краще використовувати їх у вирішенні статистичних проблем.rβ^


Дякую Ваубер за цю проникливу відповідь! Як згадувалося в коментарях до відповіді @ matt-barstead, я натрапив на стандартну помилку для , що стосується мого 2-го питання. Що я не зовсім розумію, як це відбувається і чому (схоже на питання тут )r
Стефан

1
SE для може бути отримано лише шляхом надання конкретних припущень щодо розподілу, таких як ( X , Y ) є двовимірним нормальним. Тоді це вправа в цілісному обчисленні - що з цього питання не є освітлювальною справою. Розподіл r цитується у Вікіпедії та виводиться (геометрично) у моєму доступі на сайті stats.stackexchange.com/a/85977/919 . r(X,Y)r
whuber

Я залишу цю банку глистів на інший час :) Дякую за ваш коментар @whuber!
Стефан

3

Як свідчить відповідь @ whuber, існує ряд моделей і методів, які можуть потрапляти під паралельну кореляцію, що не мають чітких аналогів у світі регресії та навпаки. Однак, за великим рахунком, коли люди думають про, порівнюють та протиставляють регресію та кореляцію, вони насправді розглядають дві сторони однієї і тієї ж математичної монети (як правило, лінійну регресію та кореляцію Пірсона). Чи варто їм брати більш широкий погляд на обидві сім'ї аналізів - це щось окреме обговорення, і те, за що дослідники повинні боротися хоча б мінімально.

xy(x,y)

У цьому вузькому огляді як регресії, так і кореляції наступні пояснення повинні допомогти з'ясувати, як і чому їх оцінки, стандартні помилки та значення p по суті є варіантами один одного.

З dataframe , datщо є longleyнабір даних , на який посилається вище , ми отримуємо наступний за cor.test. (Тут немає нічого нового, якщо ви не пропустили вище вказане питання і не перейшли до читання відповідей):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

І наступне для лінійної моделі (також така ж, як і вище):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Тепер про новий компонент на цю відповідь. Спочатку створіть дві нові стандартизовані версії змінних Employedта Population:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

Другий повторний запуск регресії:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Вуаля! Нахил регресії дорівнює коефіцієнту кореляції зверху. Відповідь на запитання 1 полягає в тому, що припущення для обох тестів по суті однакові:

  1. Незалежність спостережень
  2. xy
  3. eN(0,σe2)
  4. Терміни помилок розподіляються аналогічно при кожному передбачуваному значенні лінії регресії (тобто, однорідності дисперсії помилок)

xy змінних в яких обидві змінні є середньоцентризованими та призначаються дисперсією 1 (іноді називають z-скорингу або стандартизація).

За питання 2 почнемо зі стандартної похибки формули нахилу регресії, використаної вище (мається на увазі в коді R - але зазначено прямо внизу):

b=(XiX¯)(YiY¯)(XiX¯)2

bVar(b)Xi=(XiX¯)Yi=(YiY¯)

Var(b)=Var((XiYi)(Xi2))

З цієї формули ви можете перейти до наступного, стислого та більш корисного виразу ( див. Це посилання для крок за кроком ):

Var(b)=σe2(XiX¯)2
SE(b)=Var(b)=σe2(XiX¯)2

σe2 являє собою дисперсію залишків.

Я думаю, ви знайдете, якщо вирішите це рівняння для нестандартних та стандартизованих (тобто кореляційних) лінійних моделей, ви отримаєте однакові значення p і t для ваших нахилів. Обидва тести покладаються на оцінку найменших звичайних квадратів і роблять однакові припущення. На практиці багато дослідників пропускають перевірку припущень як для простих лінійних регресійних моделей, так і для кореляцій, хоча я думаю, що для кореляцій це ще більш поширено, оскільки багато людей не визнають їх як особливі випадки простих лінійних регресій. (Зауважте: це не вдала практика прийняти)


2
Ця відповідь не стосується цитати від @whuber, відтвореної у запитанні, де він стверджує, що припущення різні. Ви хочете сказати, що це твердження було неправильним?
амеба каже, що поверніть Моніку

Якщо ви виходити з цих рівнянь, кореляція Пірсона має ті ж основні припущення простої лінійної регресії. Я можу внести зміни до своєї відповіді, щоб більш чітко це зазначити.
Метт Барстед

1
Дякую за вашу відповідь! Мені було відомо, що коефіцієнт кореляції дорівнює нахилу регресії при стандартизації. Це було показано у посиланнях 3 та 4 мого запитання. Я також був обізнаний із загальними припущеннями, які ви перерахували, і саме тому коментар @whuber змусив мене подумати, отже, ведучи до цього питання. Я повинен був чітко зазначити, які припущення мені відомі - мої вибачення.
Стефан

1
rrr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956

0

Ось пояснення еквівалентності тесту, також показано, як r і b пов'язані.

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

Для того, щоб виконати OLS, ви повинні зробити https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

Крім того, OLS та corr вимагають припущення про випадкову вибірку.

Побудова корр-тесту передбачає:

Ми маємо "випадкову і досить велику вибірку" з сукупності (x, y).


0

Щодо питання 2

як обчислити те саме значення t, використовуючи r замість β1

trFr

F=r2/k(1r2)/(nk)

k=2n=datapoints

З обмеженням, що

... співвідношення F не може використовуватися, коли модель не має перехоплення

Джерело: Тестування гіпотези в моделі множинної регресії


1
Я оглянувся на початковий пост, щоб визначити, на яке питання ви можете відповісти. Я знайшов два, пронумеровані 1 (про припущення) та 2 (про обчислення значення t), але жодна з них, схоже, не відповідає на цю відповідь. Не могли б ви сказати нам більш чітко, на яке питання ви відповідаєте?
whuber

1
Дякую за роз’яснення: зв’язок із питанням зараз очевидний. Я, однак, тлумачу питання по-різному. Я вважаю, що запитую, як значення р для кореляційного аналізу (тобто на основі коефіцієнта кореляції вибіркиrа модель, яку вона має на увазі) обчислюється (і неявно показує, чому вона повинна отримувати те саме значення для регресійного аналізу). Ваша відповідь, хоч і правильна, також ґрунтується на регресії, тому вона все ще залишає нам цікаво.
whuber

1
Я думаю, що я розумію, можливо, я відповідав на питання в конкретному випадку, а не в загальному. Я думаю, що було б корисно мати можливість задати це питання з точки зору загальної нульової та альтернативної гіпотези, щоб мати можливість розглянути цей загальний випадок, оскільки я з цим борюся.
Гаррі Лосось

Я згоден: викладення чітких моделей та критеріїв прийняття рішень для кореляційного та регресійного аналізів допомогло б їх розрізнити. Іноді хороша відповідь складається з трохи більше, ніж переформулювання або уточнення питання, а часто найкращі відповіді починаються з ефективного перегляду питання, тому не бійтеся йти в цьому напрямку.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.