Яка різниця між керуванням змінною в регресійній моделі від контрольної для змінної у вашому проекті дослідження?

Я думаю, що контроль за змінною у вашому проекті дослідження є більш ефективним для зменшення помилок, ніж контроль за нею пост-хок у вашій регресійній моделі.

Хтось міг би офіційно пояснити, чим відрізняються ці два випадки "контролю"? Наскільки порівняно ефективні вони при зменшенні помилок та більш точних прогнозах?

regression experiment-design controlling-for-a-variable

— мерт
джерело

"Контролюючи змінну у проекті дослідження", я припускаю, що ви маєте на увазі приведення змінної до постійної для всіх досліджуваних одиниць або маніпулювання змінною, щоб рівень цієї змінної був незалежно встановлений для кожного навчального одиниці. Тобто, контроль за змінною у вашому дизайні дослідження означає, що ви проводите справжній експеримент . Користь від цього полягає в тому, що це може допомогти припустити причинну причину .

Теоретично, контроль змінної у вашій регресійній моделі також може допомогти привести до причинної причинності. Однак це лише в тому випадку, якщо ви керуєте кожною змінною, яка має прямий причинно-наслідковий зв'язок з відповіддю. Якщо ви опустите таку змінну (можливо, ви не знали її включати), і вона співвідноситься з будь-якою з інших змінних, то ваші причинно-наслідкові умовиводи будуть упередженими та неправильними. На практиці ми не знаємо всіх відповідних змінних, тому статистичний контроль є досить зухвалим завданням, яке спирається на великі припущення, які ви не можете перевірити.

Однак у вашому запитанні задається питання "зменшити помилку та дати більш точні прогнози", не випливаючи з причинності. Це вже інше питання. Якби ви зробили задану змінну постійною за допомогою свого проекту дослідження, вся змінність відповіді завдяки цій змінній була б усунена. З іншого боку, якщо ви просто керуєте змінною, ви оцінюєте її ефект, який є мінімальним помилкою вибірки . Іншими словами, статистичний контроль був би не таким хорошим, з часом, при зменшенні залишкової дисперсії у вашій вибірці.

Але якщо ви зацікавлені у зменшенні помилок та отримання більш точних прогнозів, імовірно, ви в першу чергу дбаєте про властивості вибірки, а не про точність у вашому зразку. І в цьому лежить рубець. Коли ви керуєте змінною, маніпулюючи нею в якійсь формі (тримаючи її постійною тощо), ви створюєте ситуацію, більш штучну, ніж оригінальне природне спостереження. Тобто експерименти, як правило, мають меншу зовнішню достовірність / узагальнення, ніж спостережні дослідження.

Якщо це не зрозуміло, прикладом справжнього експерименту, який тримає щось постійне, може бути оцінка лікування в мишачій моделі з використанням інбредних мишей, генетично однакових. З іншого боку, приклад контролю змінної може представляти сімейну історію захворювання за допомогою макетного коду та включення цієї змінної в модель множинної регресії (пор., Як саме "керувати іншими змінними"? Та як може додавання 2-го IV зробить 1-й IV вагомим? ).

— gung - Відновити Моніку
джерело

Чудові пояснення! @gung

— Аарон