Заголовок "помилки змінних" та зміст питання здається різним, оскільки він запитує про те, чому ми не враховуємо варіацію при моделюванні умовної відповіді, тобто у виводі для параметрів регресії. Ці дві зайняття здаються мені ортогональними, тому тут я відповідаю на зміст.X
Я раніше відповів на подібне запитання: Яка різниця між кондиціонуванням регресорів проти трактування їх як фіксованого? , тому тут я скопію частину своєї відповіді:
Я спробую викласти аргумент на умову щодо регресорів дещо формальніше. Нехай випадковий вектор, і інтерес в регресії на , де регресії розуміється умовне математичне сподівання на . За мультинормальними припущеннями це буде лінійна функція, але наші аргументи від цього не залежать. Ми починаємо з факторизації щільності суглоба звичайним способом
але ці функції не відомі, тому ми використовуємо параметризовану модель
де параметризує умовний розподіл і(Y,X)YXYXf(y,x)=f(y∣x)f(x)
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
θψмаргінальне розподіл . У звичайній лінійній моделі ми можемо мати але це не передбачається. Повний простір параметрів - , декартовий продукт, і ці два параметри не мають спільного.Xθ=(β,σ2)(θ,ψ)Θ×Ψ
Це можна інтерпретувати як факторизацію статистичного експерименту (або процесу генерації даних, DGP), перший формується відповідно до , а як другий крок, формується відповідно до умовної щільності . Зауважте, що перший крок не використовує ніяких знань про , які вводяться лише на другому кроці. Статистика є допоміжною для , див. Https://en.wikipedia.org/wiki/Ancillary_statistic .Xfψ(x)Yfθ(y∣X=x)θXθ
Але, залежно від результатів першого кроку, другий крок може бути більш-менш інформативним щодо . Якщо розподіл, заданий має дуже низьку дисперсію, скажімо, спостережувані 's будуть сконцентровані в невеликій області, тому оцінити буде складніше . Отже, перша частина цього двоетапного експерименту визначає точність, з якою можна оцінити . Тому природно обумовлювати у висновку про параметри регресії. Це аргумент обумовленості, і викладений вище текст чітко пояснює його припущення.θfψ(x)xθθX=x
У розроблених експериментах його припущення здебільшого дотримуються, часто це стосується даних спостережень. Деякі приклади проблем будуть: регресія з відсталими відповідями в якості прогнозів. Умови щодо прогнозів у цьому випадку також обумовлюють відповідь! (Додам більше прикладів).
Одна з книг, в якій досить детально обговорюються ці проблеми, - це Інформаційні та експоненціальні сім'ї: У статистичній теорії О. Е. Барндорф-Нільсен. Див. Особливо розділ 4. Автор каже, що логіка поділу в цій ситуації рідко пояснюється, але дає такі посилання: Р. А. Фішер (1956) Статистичні методи та наукові висновки та Свердруп (1966) Сучасний стан теорії рішень та теорія Неймана-Пірсона .§4.3
Використовувана тут факторизація дещо схожа за духом із теоремою факторизації достатньої статистики. Якщо фокус зосереджений на параметрах регресії , а розподіл не залежить від , то як розподіл (або зміна) містити інформацію про ? θXθXθ
Цей аргумент розділення корисний ще й тому, що він вказує на випадки, коли його не можна використовувати, наприклад, регресію з відсталими відповідями в якості предикторів.