Найпростіше пояснити на прикладі:
Уявіть, що дослідження показують, що люди, які спостерігали за фіналом чемпіонату світу, швидше зазнали серцевого нападу під час матчу або в наступні 24 години, ніж ті, хто цього не спостерігав. Чи повинен уряд заборонити футбол з телебачення? Але чоловіки частіше дивляться футбол, ніж жінки, а чоловіки також частіше мають серцевий напад, ніж жінки. Тож зв'язок між переглядом футболу та інфарктами може бути пояснений третім фактором, таким як секс, який впливає на обох. (Соціологи розрізняли б тут гендер , культурний конструкт, який асоціюється з переглядом футболу, і секс, біологічна категорія, яка асоціюється із захворюваністю на серцевий напад, але ці два випадки дуже сильно корелюються, тому я буду ігнорувати цю різницю для простоти.)
Статистики, і особливо епідеміологи, називають такий третій фактор переконливим , а явище - заплутаним . Найбільш очевидний спосіб усунути проблему - подивитися на зв’язок між спостереженням за футболом та захворюванням на серцевий напад у чоловіків та жінок окремо або на жаргоні, щоб стратифікувати за статтю. Якщо ми виявимо, що асоціація (якщо все-таки є одна) є однаковою для обох статей, ми можемо вирішити комбінувати дві оцінки асоціації для обох статей. Отриману оцінку зв'язку між спостереженням за футболом та частотою серцевого нападу, як кажуть, коригують або контролюють для сексу.
Ми, ймовірно, також хотіли б таким же чином контролювати інші фактори. Вік - це ще один очевидний (адже епідеміологи або розшаровують, або коригують / контролюють майже кожну асоціацію за віком та статтю). Соціально-економічний клас, мабуть, інший. Інші можуть бути складнішими, наприклад, чи слід налаштовувати на споживання пива під час перегляду матчу? Можливо, так, якщо нас цікавить ефект стресу від спостереження за матчем самостійно; але, можливо, ні, якщо ми розглядаємо питання заборони трансляції футболу з футболу, що також зменшило б споживання пива. Чи дана змінна є конфундером чи ні, залежить саме від того, на яке питання ми хочемо звернутися, і це може зажадати дуже ретельного роздуму та отримати досить складний і навіть спірний характер.
Зрозуміло, що тоді ми можемо бажати налаштувати / контролювати декілька факторів, деякі з яких можна виміряти у кількох категоріях (наприклад, соціальний клас), а інші можуть бути безперервними (наприклад, віком). Ми можемо мати справу з безперервними, розділяючи їх на (вікові) групи, тим самим перетворюючи їх на категоричні. Тож скажімо, у нас 2 статі, 5 груп соціальних класів та 7 вікових груп. Зараз ми можемо розглянути зв’язок між спостереженням за футболом та захворюванням на серцевий напад у розмірах 2 × 5 × 7 = 70. Але якщо наше дослідження є досить малим, тому деякі з цих верств містять дуже мало людей, ми з цим підходом зіткнемося з проблемами. І на практиці ми можемо захотіти скоригуватися на десяток і більше змінних. Регресійний аналіз пропонує альтернативний спосіб коригування / контролю змінних, який особливо корисний, коли їх є багатоз множинними залежними змінними, іноді відомими як багатовимірний регресійний аналіз. (Існують різні типи регресійних моделей залежно від типу змінної результату: регресія найменших квадратів, логістична регресія, пропорційна регресія (Cox) регресія ...). У спостережних дослідженнях, на відміну від експериментів, ми майже завжди хочемо скоригуватись для багатьох потенційних плутанин, тому на практиці коригування / контроль за плутанинами часто проводиться шляхом регресійного аналізу, хоча є й інші альтернативи, наприклад стандартизація, зважування, схильність відповідність балів ...