Я думаю, що каузальне моделювання є запорукою відповіді на це питання. Кожен стикається з самого початку, щоб визначити правильний скоригований / стратифікований / контрольований ефект, що цікавить, перш ніж навіть переглядати дані. Якби я оцінив співвідношення висоти / ємності легенів у дорослих, я би налаштував статус куріння, оскільки куріння тютюнопаління впливає на зростання легенів. Конфундери - це змінні, що причинно пов'язані з прогнозкою інтересу і пов'язані з результатом інтересу. Дивіться Причинність з Іудеї Перл, 2-е видання. Слід визначити та обґрунтувати їх аналіз для правильних змішуючих змінних, перш ніж процес збору даних навіть почне використовувати раціональну логіку та попередні знання з попередніх дослідницьких досліджень.
R2для лінійних моделей цих змінних коригування. Інший процес, поширений в епідеміології, полягає в тому, що змінні додаються до моделі лише тоді, коли вони змінить оцінку основного ефекту (як коефіцієнт шансів чи коефіцієнт небезпеки) принаймні на 10%. Хоча це "більш" правильно, ніж вибір моделі на основі AIC, я все ще думаю, що в цьому підході є основні застереження.
Моя рекомендація - заздалегідь уточнити бажаний аналіз як частину гіпотези. Ризик куріння / раку, скоригований віком, є іншим параметром і призводить до різних висновків у контрольованому дослідженні, ніж ризик сирого куріння / раку. Використання знань з предметів є найкращим способом вибору предикторів для коригування в регресійних аналізах, або як стратифікація, відповідність або зважування змінних у різних інших типах "контрольованих" аналізів експериментального та квазіекспериментального проектування.