X і Y не співвідносяться, але X є важливим предиктором Y при множинній регресії. Що це означає?


34

X і Y не співвідносяться (-.01); однак, коли я розміщую X у множинній регресії, що прогнозує Y, поряд з трьома (A, B, C) іншими (пов'язаними) змінними, X та дві інші змінні (A, B) є важливими провісниками Y. Зауважимо, що дві інші ( Змінні A, B) суттєво корелюються з Y поза регресії.

Як слід інтерпретувати ці висновки? X прогнозує унікальну дисперсію у Y, але оскільки вони не співвідносяться (Пірсон), це важко інтерпретувати.

Я знаю протилежні випадки (тобто дві змінні є корельованими, але регресія не є істотними), і їх порівняно простіше зрозуміти з теоретичної та статистичної точки зору. Зауважимо, що деякі прогнози є досить корельованими (наприклад, .70), але не настільки, наскільки я б очікував істотної мультиколінеарності. Можливо, я помиляюся.

ПРИМІТКА. Це питання я раніше задавав, і його було закрито. Раціональним було те, що це питання є надмірним питанням " Як може бути регресія суттєвою, але всі прогнози можуть бути незначними?"Можливо, я не розумію іншого питання, але я вважаю, що це абсолютно окремі питання, як математично, так і теоретично. Моє запитання повністю незалежне від того, чи" регресія є істотною ". Крім того, кілька прогнозів є вагомими, тоді як інше питання тягне за собою, що змінні не мають суттєвого значення, тому я не бачу перекриття. Якщо ці питання зайві з причин, яких я не розумію, будь ласка, вставте коментар до закриття цього питання. Також я сподівався надіслати повідомлення модератору, який закрив інший питання, щоб уникнути однакових запитань, але я не зміг знайти варіант для цього.


2
Я думаю, що це дуже схоже на попереднє питання. Якщо X і Y по суті є некорельованими, то в простій лінійній регресії коефіцієнт нахилу для X не буде значущим. Адже оцінка нахилу пропорційна кореляції вибірки. Множинна регресія горіха може бути різною історією, оскільки X і Z разом можуть пояснити велику мінливість у Y. Оскільки моя відповідь звучить схоже на відповіді на попереднє запитання, можливо, це вказує на чітку схожість.
Майкл Р. Черник

2
Дякую за вашу відповідь і дуже детальну відповідь в іншій темі. Мені потрібно буде прочитати її протягом декількох разів, щоб отримати тезу про це. Моя інша проблема, я думаю, полягає в тому, як його інтерпретувати практично, а не статистично чи математично. Скажімо, наприклад, швидкість плавання та тривожність у рисах не співвідносяться, але тривожність прикметника є важливим предиктором швидкості плавання при багаторазовій регресії поряд з іншими провісниками. Як це може мати сенс практично? Скажімо, ви писали це в розділі обговорення клінічного журналу!
Бехакад

3
@jth Оскільки ви вважаєте, що два питання досить різні, щоб їх не вважати дублікатами, будь ласка, перекладіть свою відповідь на іншу, щоб перейти сюди. (Прошу вибачення за те, що спочатку не оцінили різницю.) Я вважаю, що нова примітка є невірною, якщо вважати, що питання є математично різними - @ Майкл Черник зазначає, що вони в основному однакові - але акцент на інтерпретації встановлює поважну причину щоб нитки були окремими.
whuber

1
Я також перенесла відповідь сюди. Я думаю, що обидва питання досить різні, але вони можуть поділитись загальними поясненнями.
JDav

1
На цій веб-сторінці є ще одне чудове обговорення суміжних тем. Це довго, але дуже добре і може допомогти вам зрозуміти проблеми. Рекомендую прочитати його повністю.
gung - Відновіть Моніку

Відповіді:


39

Теорія причинності пропонує ще одне пояснення того, як дві змінні можуть бути безумовно незалежними, але умовно залежними. Я не є експертом теорії причинно-наслідкових зв’язків і вдячний за будь-яку критику, яка виправить будь-які помилки нижче.

Для ілюстрації я буду використовувати спрямовані ациклічні графіки (DAG). У цих графіках ребра ( ) між змінними представляють прямі причинно-наслідкові зв'язки. Голівки стрілок ( або стрілок ) вказують напрямок причинно-наслідкових зв’язків. Таким чином робить висновок , що безпосередньо викликає і робить висновок , що безпосередньо викликано . - це причинний шлях, який визначає, що опосередковано викликає черезABABABABABCACB. Для простоти припустимо, що всі причинно-наслідкові зв’язки є лінійними.

Спочатку розглянемо простий приклад упередження конфундера :

сповідувати

Тут простий bivariable регресії запропонує залежність між і . Однак прямої причинно-наслідкової зв'язку між та . Натомість обидва є безпосередньо спричиненими , а в простому змінній регресії спостереження викликає залежність між і , що призводить до зміщення змішання. Тим НЕ менше, багатопараметричний регресійний кондиціонування на буде видалити зміщення і не припускають ніякої залежності між і .XYXYZZXYZXY

По-друге, розглянемо приклад зміщення колайдера (також відомий як ухил Берксона або берксонівський ухил, серед яких ухил відбору є спеціальним типом):

коллайдер

Тут простий bivariable регресії не допустити ніякої залежності між і . Це узгоджується з DAG, який не виводить ніякого прямого причинного зв'язку між і . Однак багатовимірна регресія, обумовлена Z, може викликати залежність між X і Y, що дозволяє припустити, що може існувати прямий причинно-наслідковий зв’язок між двома змінними, коли насправді їх немає. Включення Z у багатовимірну регресію призводить до зміщення колайдера.XYXYZXYZ

По-третє, розглянемо приклад випадкового скасування:

скасування

Припустимо, що α , β і γ - коефіцієнти шляху, а β=αγ . Простий bivariable регресія запропонувати не depenence між X і Y . Незважаючи на те, X фактично є прямою причиною Y , змішане вплив Z на X і Y , до речі компенсує ефект X на Y . Багатовимірна регресійна обстановка на Z зніме заплутану дію Z на X іY , що дозволяє оцінити прямий впливX наY , вважаючи, що DAG причинної моделі є правильним.

Узагальнити:

Confounder приклад: X і Y є залежними в bivariable регресії і незалежними в багатофакторному регресійному кондиціонування на confounder Z .

Коллайдер приклад: X і Y є незалежними в bivariable регресії і залежить в багатофакторному кондиціонування regresssion на колайдері Z .

Inicdental приклад скасування: X і Y незалежні в bivariable регресії і залежить в багатофакторному кондиціонування regresssion на confounder Z .

Обговорення:

Результати вашого аналізу не сумісні з прикладом конвеєра, але сумісні як з прикладом коллайдера, так і з випадковим прикладом скасування. Таким чином, потенційне пояснення полягає в тому , що ви неправильно обумовлені змінному колайдері у вашій багатофакторної регресії і індукована зв'язок між X і Y , навіть якщо X не є причина Y і Y не є причиною X . Крім того, ви могли б правильно обумовити конвеєра у вашій багатоваріантній регресії, яка випадково скасувала справжній вплив X на Y у вашій змінній регресії.

Я вважаю, що використання базових знань для побудови причинних моделей є корисним при розгляді, які змінні включати до статистичних моделей. Наприклад, якщо попередні високоякісні рандомізовані дослідження зробили висновок, що X викликає Z а Y викликає Z , я можу зробити чітке припущення, що Z є коллайдером X і Y і не обумовлює його в статистичній моделі. Однак, якби у мене була просто інтуїція, що X викликає Z , а Y викликає Z , але жодних сильних наукових доказів, які підтверджують мою інтуїцію, я можу зробити лише слабке припущення, що Zє колайдером X і Y , оскільки людська інтуїція має історію помилок. Згодом, я б скептично ставитися до infering причинно - наслідкові зв'язки між X і Y без подальших досліджень їх причинно - наслідкових зв'язків з Z . Замість або на додаток до базових знань також існують алгоритми, призначені для виведення причинно-наслідкових моделей із даних за допомогою серій тестів асоціації (наприклад, алгоритм ПК та алгоритм FCI, див. TETRAD щодо реалізації Java, PCalgдля впровадження R). Ці алгоритми дуже цікаві, але я б не рекомендував покладатися на них без чіткого розуміння сили та обмежень причинного числення та причинних моделей у причинній теорії.

Висновок:

Споглядання причинно-наслідкових моделей не виправдовують слідчого від звернення до статистичних міркувань, обговорених в інших відповідях тут. Однак я вважаю, що причинно-наслідкові моделі все-таки можуть стати корисною базою для розгляду можливих пояснень спостережуваної статистичної залежності та незалежності в статистичних моделях, особливо під час візуалізації потенційних плутанин та колайдерів.

Подальше читання:

Гельман, Ендрю. 2011. " Причинність та статистичне навчання ". Am. J. Sociology 117 (3) (листопад): 955–966.

Гренландія, S, Дж. Перл і Дж. М. Робінс. 1999. " Причинно-наслідкові діаграми епідеміологічних досліджень ". Епідеміологія (Кембридж, Массачусетс) 10 (1) (січень): 37–48.

Гренландія, Сандер. 2003. « Кількісне визначення діапазонів у причинних моделях: класичне заплутане зміщення Vs-коллайдера-стратифікація» . Епідеміологія 14 (3) (1 травня): 300–306.

Перлина, Юдея. 1998. Чому немає статистичного тесту на заплутаність, чому багато хто думає, що існує, і чому вони майже праві .

Перлина, Юдея. 2009. Причинність: моделі, міркування та умовиводи . 2-е вид. Cambridge University Press.

Спіртс, Пітер, Кларк Глімор та Річард Шейнс. 2001. Причинність, передбачення та пошук , друге видання. Книга Бредфорда.

Оновлення: Юдея Перл обговорює теорію причинного висновку та необхідність включення каузального висновку у вступні курси статистики у випуску Amstat News за листопад 2012 року . Цікавою є також його лекція про премію Тьюрінга під назвою "Механізація причинного висновку:" міні "Тест Тьюрінга і далі".


Причинно-наслідкові аргументи, безумовно, справедливі, але для того, щоб дослідник підписався на цей підхід, вимагає дуже хорошого знання основних явищ. Цікаво, чи аналіз @Behacad є лише дослідним.
JDav

1
@Behacad: Як було сказано у моїй відповіді, я пропоную вам забути про один оскільки ваша проблема є багатоваріантною, а не двоваріантною. Для вимірювання впливу вашої цікавої змінної потрібно контролювати інші джерела варіації, які можуть спотворювати вимірюваний вплив x. ρ
JDav

5
+1 Ілюстрації та пояснення дуже чіткі та добре зроблені. Дякую за зусилля та дослідження, які (очевидно) пішли в цю відповідь.
whuber

1
Також чи міг би хтось надати мені практичний приклад "По-третє, розглянути приклад випадкового скасування?". Виникає питання причинної зв'язку. Якщо X і Y не співвідносяться (тобто зміни в X не пов'язані зі змінами Y "), як би ми могли вважати цю" причину ". Це саме те, що мені цікаво в іншому питанні! Stats.stackexchange.com/questions / 33638 /…
Behacad

4
Варто зазначити, що для них існують деякі альтернативні назви: Confounder -> Common Cause Model; Колайдер -> Модель загального ефекту; & Випадкове скасування є особливим випадком часткового посередництва.
gung - Відновіть Моніку

22

Я думаю, що підхід @ jthetzel є правильним (+1). Для того, щоб інтерпретувати ці результати, вам доведеться подумати / мати певну теорію, чому стосунки проявляються як вони. Тобто вам потрібно буде подумати про закономірність причинно-наслідкових зв’язків, що лежать в основі ваших даних. Вам потрібно визнати, що, як вказує @jthetzel, ваші результати узгоджуються з декількома різними процесами генерування даних. Я не думаю, що будь-яка кількість додаткових статистичних тестів на одному і тому ж наборі даних дозволить вам розрізнити серед цих можливостей (хоча подальший експеримент, безумовно, міг би). Тож важко задуматися над тим, що відомо про цю тему, тут є життєво важливим.

Я хочу вказати на іншу можливу основоположну ситуацію, яка могла б створити такі результати, як ваша: Придушення . Це важче проілюструвати за допомогою діаграм зі стрілками, але якщо я можу їх трохи збільшити, ми могли б подумати про це так:

введіть тут опис зображення

У цій ситуації важливо, що складається з двох частин, непов'язаної ( U ) частини та пов'язаної ( R ) частини. Подавитель буде корелюють з Y , але цілком може бути «значним» в моделі множинної регресії. Крім того, Інша змінна може або не може бути «суттєво» співвіднесена з Пригнічувачем або Y самостійно. Більше того, ваша змінна X може грати роль або пригнічувача, або іншої змінноїOther VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable в цій ситуації (і, таким чином, знову ж таки, вам потрібно подумати про те, на чому може базуватися основна закономірність).

Я не знаю, чи можете ви читати код R, але ось приклад, який я опрацював. (Цей конкретний приклад краще підходить для X, який виконує роль , але обидва не «суттєво» співвідносяться з Y ; слід мати можливість отримати співвідношення між Іншою змінною та Y близьким до 0 та співставити інші описи із просто правильні налаштування.) SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

Моя думка тут не в тому, що ця ситуація лежить в основі ваших даних. Я не знаю, чи це більш-менш вірогідно, ніж пропонує параметр @jthetzel. Я пропоную це лише як більше їжі для роздумів. Щоб інтерпретувати ваші поточні результати, потрібно подумати над цими можливостями та вирішити, що має найбільше сенс. Щоб підтвердити свій вибір, знадобиться ретельне експериментування.


2
Відмінно! Дякую. Це слугує ще одним хорошим прикладом того, що може відбуватися в моїх даних. Схоже, я можу прийняти лише одну відповідь, хоча ...
Behacad

Без проблем, @Behacad, я думаю, що jthetzel заслуговує галочки; Я просто радий допомогти.
gung - Відновіть Моніку

7

Просто деяка візуалізація, що це можливо.

На малюнку (а) показана "нормальна" чи "інтуїтивна" регресійна ситуація. Цей малюнок такий же, як, наприклад, знайдений (і пояснений) тут або тут .

YY^b

b1b2X1X2

введіть тут опис зображення

X1YYX1YX2

X1YX1

Дані та аналіз, що приблизно відповідають рисунку (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

введіть тут опис зображення

Дані та аналіз, що приблизно відповідають рис (с):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

введіть тут опис зображення

X1Y.224X2.419.538


Спасибі! Це все ще виглядає дещо протиборчою, але принаймні ваші фотографії показують, що це можливо :)
JelenaČuklina

5

Я згоден з попередньою відповіддю, але сподіваюся, що зможу зробити свій внесок, надавши більше деталей.

XYxy

Y=a+βx+u

ρ^yx=β^σ^x/σ^y

Y

Y=a+βx+jαjzj+u

βzjρρxy|zzj


ρρ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.