Поясніть коригування моделі простою англійською мовою

14

Читаючи про методи та результати статистичного аналізу, особливо в епідеміології, я дуже часто чую про коригування або контроль моделей.

Як би ви пояснили нестатистці мету цього? Як ви інтерпретуєте результати після контролю певної змінної?

Невелике проходження в Stata або R або вказівник на один Інтернет - справжня дорогоцінний камінь.

regression modeling epidemiology

— radek
джерело

29

Найпростіше пояснити на прикладі:

Уявіть, що дослідження показують, що люди, які спостерігали за фіналом чемпіонату світу, швидше зазнали серцевого нападу під час матчу або в наступні 24 години, ніж ті, хто цього не спостерігав. Чи повинен уряд заборонити футбол з телебачення? Але чоловіки частіше дивляться футбол, ніж жінки, а чоловіки також частіше мають серцевий напад, ніж жінки. Тож зв'язок між переглядом футболу та інфарктами може бути пояснений третім фактором, таким як секс, який впливає на обох. (Соціологи розрізняли б тут гендер , культурний конструкт, який асоціюється з переглядом футболу, і секс, біологічна категорія, яка асоціюється із захворюваністю на серцевий напад, але ці два випадки дуже сильно корелюються, тому я буду ігнорувати цю різницю для простоти.)

Статистики, і особливо епідеміологи, називають такий третій фактор переконливим , а явище - заплутаним . Найбільш очевидний спосіб усунути проблему - подивитися на зв’язок між спостереженням за футболом та захворюванням на серцевий напад у чоловіків та жінок окремо або на жаргоні, щоб стратифікувати за статтю. Якщо ми виявимо, що асоціація (якщо все-таки є одна) є однаковою для обох статей, ми можемо вирішити комбінувати дві оцінки асоціації для обох статей. Отриману оцінку зв'язку між спостереженням за футболом та частотою серцевого нападу, як кажуть, коригують або контролюють для сексу.

Ми, ймовірно, також хотіли б таким же чином контролювати інші фактори. Вік - це ще один очевидний (адже епідеміологи або розшаровують, або коригують / контролюють майже кожну асоціацію за віком та статтю). Соціально-економічний клас, мабуть, інший. Інші можуть бути складнішими, наприклад, чи слід налаштовувати на споживання пива під час перегляду матчу? Можливо, так, якщо нас цікавить ефект стресу від спостереження за матчем самостійно; але, можливо, ні, якщо ми розглядаємо питання заборони трансляції футболу з футболу, що також зменшило б споживання пива. Чи дана змінна є конфундером чи ні, залежить саме від того, на яке питання ми хочемо звернутися, і це може зажадати дуже ретельного роздуму та отримати досить складний і навіть спірний характер.

Зрозуміло, що тоді ми можемо бажати налаштувати / контролювати декілька факторів, деякі з яких можна виміряти у кількох категоріях (наприклад, соціальний клас), а інші можуть бути безперервними (наприклад, віком). Ми можемо мати справу з безперервними, розділяючи їх на (вікові) групи, тим самим перетворюючи їх на категоричні. Тож скажімо, у нас 2 статі, 5 груп соціальних класів та 7 вікових груп. Зараз ми можемо розглянути зв’язок між спостереженням за футболом та захворюванням на серцевий напад у розмірах 2 × 5 × 7 = 70. Але якщо наше дослідження є досить малим, тому деякі з цих верств містять дуже мало людей, ми з цим підходом зіткнемося з проблемами. І на практиці ми можемо захотіти скоригуватися на десяток і більше змінних. Регресійний аналіз пропонує альтернативний спосіб коригування / контролю змінних, який особливо корисний, коли їх є багатоз множинними залежними змінними, іноді відомими як багатовимірний регресійний аналіз. (Існують різні типи регресійних моделей залежно від типу змінної результату: регресія найменших квадратів, логістична регресія, пропорційна регресія (Cox) регресія ...). У спостережних дослідженнях, на відміну від експериментів, ми майже завжди хочемо скоригуватись для багатьох потенційних плутанин, тому на практиці коригування / контроль за плутанинами часто проводиться шляхом регресійного аналізу, хоча є й інші альтернативи, наприклад стандартизація, зважування, схильність відповідність балів ...

— одна зупинка
джерело

3

+1 (хоча він заслуговує на +3 принаймні) - дуже ретельний і всебічний. Зробили це питання набагато зрозумілішим для мене. Спасибі!

— radek

"Альтернативний спосіб коригування / контролю змінних, який особливо корисний, коли їх багато, надається регресійним аналізом з декількома залежними змінними, іноді відомим як багатовимірний регресійний аналіз." це має бути "незалежним" чи я нерозумію? і чи більш поширений жаргон для цього, "множинна регресія"? (я знаю, що це дискусійно)

— Річард

10

Onestop це досить добре пояснив, я просто наведу простий приклад R із складеними даними. Скажімо, x - вага, а y - зріст, і ми хочемо з'ясувати, чи є різниця між чоловіками і жінками:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Ви можете бачити, що без контролю за вагою (у anova (lm1)) різниця між статями дуже мала, але коли вага включається як коваріат (контрольований в lm2), то різниця стає більш очевидною.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Метт Альбрехт
джерело