Чому моделі «помилка в X» не використовуються більш широко?


11

При розрахунку стандартної помилки коефіцієнта регресії, ми не враховуємо хаотичності в конструкції матриці . Наприклад, в OLS, ми обчислюємо якXvar(β^)var((XTX)1XTY)=σ2(XTX)1

Якщо розглядалися випадковим чином , закон загальної дисперсії буде, в деякому сенсі, вимагає додаткового вкладу дисперсії , а також. тобтоXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

Що, якщо оцінювач OLS справді неупереджений, перший термін зникає, оскільки очікування є постійним. Другим терміном насправді стає: .σ2cov(X)1

  1. Якщо параметрична модель для відома, чому ми не замінимо фактичною коваріаційною оцінкою. Наприклад, якщо є рандомизованим призначенням лікування, чи повинна біноміальна дисперсія бути більш ефективною оцінкою?XXTXXE(X)(1E(X))

  2. Чому б нам не розглянути можливість використання гнучких непараметричних моделей для оцінки можливих джерел зміщення в оцінці OLS та належним чином врахувати чутливість до проектування (тобто розподілу ) у першому терміні дисперсії загального закону ?Xvar(E(β^|X))


2
Чому математичний закон щось вимагає? Ми використовуємо модель для міркування даних для вирішення конкретних цілей. Коли вони повинні зрозуміти або спрогнозувати умовний відгук на основі спостережуваного або виміряного значення зміна в мало б взагалі мало спільного з суттєвим питанням - дійсно, включення цього варіанту в наші процедури бути зовсім неправильним, оманливим або навіть безглуздим. Отже, відповідь на ваше запитання зводиться до оцінки частоти, з якою виникають різні види статистичних проблем. ХX,X
whuber

1
@whuber Моя увага зосереджена на висновку. Закон тотальної дисперсії, здається, більше узгоджується з частою інтерпретацією результатів дослідження. Ми часто говоримо про "якби дослідження були повторені" ... без обліку того, що розподіл може відрізнятися, якби дослідження було повторене. Баланс статі може бути 40% в одному зразку, але 60% в іншому просто як випадковий наслідок того, як було отримано дослідження. За іронією долі, завантажувальний пристрій відображає це, але не створює змін для результату для певної комбінації коваріатів. X
АдамО

2
По-перше, багато досліджень ставлять під експериментальний контроль, тож це навіть не випадково. По-друге, спостережні дослідження (де є випадковим) часто цікавляться лише висновками про умовний розподіл Таким чином, орієнтація на умовиводи не відрізняє одну ситуацію від іншої. Коли повний (спільний) розподіл викликає інтерес, ви побачите багато людей, які вдаються до форм кореляційного аналізу або різних багатоваріантних процедур. Немає такого поняття, як "the" завантажувальна програма, тому що в цій ситуації спосіб повторного впорядкування залежить від ваших цілей, а також вашої моделі. X Y .XXY.
whuber

1
Контроль @whuber Experimental є рандомізовані в момент початку дослідження. Як я вже згадував, це вагомий випадок: скажімо, рандомізація - Бернуллі. Навіщо використовувати емпіричну оцінку ? Використовуйте максимальну ймовірність: ? Ви вірно ставитеся до завантажувальної програми, я мав на увазі непараметричну (безумовну) завантажувальну програму, де "рядки" даних відбираються з пробою із заміною. cov ( X ) = E ( X ) ( 1 - E ( X ) )cov(X)=XTXcov(X)=E(X)(1E(X))
АдамО

2
Поза окремими аномальними випадками, насправді не має значення, якщо є випадковим, що важливо, чи є помилка вимірювання в . Якщо так, методи OLS призвели б до упереджених та нижчих оцінок . У цьому випадку слід використовувати помилки в методах змінних. X 1 β 1X1X1β1
gung - Відновіть Моніку

Відповіді:


8

Ваше запитання (плюс подальший коментар у коментарях), здається, найбільше цікавить той випадок, коли ми маємо рандомізоване контрольоване випробування, коли дослідник випадковим чином присвоює одну або декілька пояснювальних змінних на основі деякої конструкції рандомізації. У цьому контексті ви хочете знати, чому ми використовуємо модель, яка розглядає пояснювальні змінні як відомі постійні, а не трактує їх як випадкові змінні з розподілу вибірки, накладеного рандомізацією. (Ваше запитання ширше, ніж це, але, мабуть, це стосується першочергового інтересу у коментарі, тому це саме те, на що я звернуся.)

Причиною, що ми обумовлюємо пояснювальні змінні в цьому контексті, є те, що в проблемі регресії для RCT ми все ще зацікавлені в умовному розподілі змінної відповіді за даними прогнозів . Дійсно, в RCT нам цікаво визначити причинний вплив пояснювальної змінної на змінну відповіді , яку ми збираємося визначити за допомогою висновку про умовний розподіл (з урахуванням деяких протоколів для запобігання плутанини). Рандомізація накладається для розриву залежності між пояснювальною змінною та будь-якими потенційними змішуючими змінними (тобто запобігання заднього зв'язку асоціацій). XYX Однак об'єктом висновку в задачі все ж є умовний розподіл змінної відповіді з урахуванням пояснювальних змінних. Таким чином, все ще має сенс оцінювати параметри в цьому умовному розподілі, використовуючи методи оцінки, які мають хороші властивості для виведення умовного розподілу .

Це звичайний випадок, який застосовується для РКТ з використанням регресійних методів. Звичайно, є деякі ситуації, коли у нас є інші інтереси, і ми, можливо, хотіли б включити невизначеність щодо пояснювальних змінних. Включення невизначеності в пояснювальні змінні, як правило, відбувається у двох випадках:

  • (1) Коли ми виходимо за межі регресійного аналізу та багатоваріантного аналізу, то нас цікавить спільний розподіл пояснювальних змінних та змінних відповідей, а не просто умовний розподіл останньої з огляду на перший. Можливо, є додатки, де це наш інтерес, і ми б потім вийшли за рамки регресійного аналізу та включили інформацію про розподіл пояснювальних змінних.

  • (2) У деяких регресійних програмах наш інтерес полягає в умовному розподілі змінної відповіді, що обумовлена ​​базовою непоміченою пояснювальною змінною, де ми припускаємо, що спостережувані пояснювальні змінні зазнали помилки ("помилки-змінні"). У цьому випадку ми включаємо невизначеність через "помилки в змінних". Причиною цього є те, що наш інтерес до цих випадків полягає в умовному розподілі, що обумовлюється непоміченою базовою змінною .

Зауважте, що обидва ці випадки є математично складнішими, ніж регресійний аналіз, тому, якщо ми можемо піти з допомогою регресійного аналізу, це, як правило, краще. У будь-якому випадку, у більшості застосувань регресійного аналізу мета полягає в тому, щоб зробити висновок про умовний розподіл відповіді з огляду на пояснювані змінні, що спостерігаються, тому ці узагальнення стають непотрібними.


Зауважте, що рандомізація передає причинно-наслідкові наслідки від змішання змінних до рандомізованої змінної, але вона не розділяє причинно-наслідкові ефекти від рандомізованої змінної до змішуючих змінних, а потім до відповіді. Це означає, що можуть бути потрібні інші протоколи (наприклад, плацебо, засліплення тощо), щоб повністю розірвати всі задні двері асоціацій при причинному аналізі.


2
Гарна відповідь. Я додам, що AFAIK, якщо у вас є гауссові помилки в змінних та гауссова помилка у відповіді, ніж працює звичайний метод регресії, і це стає проблемою лише в тому випадку, якщо ви: а) спостерігали відповідь без помилки б) маєте інший розподіл відповідей
Мартін Модрак

2

Заголовок "помилки змінних" та зміст питання здається різним, оскільки він запитує про те, чому ми не враховуємо варіацію при моделюванні умовної відповіді, тобто у виводі для параметрів регресії. Ці дві зайняття здаються мені ортогональними, тому тут я відповідаю на зміст.X

Я раніше відповів на подібне запитання: Яка різниця між кондиціонуванням регресорів проти трактування їх як фіксованого? , тому тут я скопію частину своєї відповіді:

Я спробую викласти аргумент на умову щодо регресорів дещо формальніше. Нехай випадковий вектор, і інтерес в регресії на , де регресії розуміється умовне математичне сподівання на . За мультинормальними припущеннями це буде лінійна функція, але наші аргументи від цього не залежать. Ми починаємо з факторизації щільності суглоба звичайним способом але ці функції не відомі, тому ми використовуємо параметризовану модель де параметризує умовний розподіл і(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψмаргінальне розподіл . У звичайній лінійній моделі ми можемо мати але це не передбачається. Повний простір параметрів - , декартовий продукт, і ці два параметри не мають спільного.Xθ=(β,σ2)(θ,ψ)Θ×Ψ

Це можна інтерпретувати як факторизацію статистичного експерименту (або процесу генерації даних, DGP), перший формується відповідно до , а як другий крок, формується відповідно до умовної щільності . Зауважте, що перший крок не використовує ніяких знань про , які вводяться лише на другому кроці. Статистика є допоміжною для , див. Https://en.wikipedia.org/wiki/Ancillary_statistic .Xfψ(x)Yfθ(yX=x)θXθ

Але, залежно від результатів першого кроку, другий крок може бути більш-менш інформативним щодо . Якщо розподіл, заданий має дуже низьку дисперсію, скажімо, спостережувані 's будуть сконцентровані в невеликій області, тому оцінити буде складніше . Отже, перша частина цього двоетапного експерименту визначає точність, з якою можна оцінити . Тому природно обумовлювати у висновку про параметри регресії. Це аргумент обумовленості, і викладений вище текст чітко пояснює його припущення.θfψ(x)xθθX=x

У розроблених експериментах його припущення здебільшого дотримуються, часто це стосується даних спостережень. Деякі приклади проблем будуть: регресія з відсталими відповідями в якості прогнозів. Умови щодо прогнозів у цьому випадку також обумовлюють відповідь! (Додам більше прикладів).

Одна з книг, в якій досить детально обговорюються ці проблеми, - це Інформаційні та експоненціальні сім'ї: У статистичній теорії О. Е. Барндорф-Нільсен. Див. Особливо розділ 4. Автор каже, що логіка поділу в цій ситуації рідко пояснюється, але дає такі посилання: Р. А. Фішер (1956) Статистичні методи та наукові висновки та Свердруп (1966) Сучасний стан теорії рішень та теорія Неймана-Пірсона .§4.3


Використовувана тут факторизація дещо схожа за духом із теоремою факторизації достатньої статистики. Якщо фокус зосереджений на параметрах регресії , а розподіл не залежить від , то як розподіл (або зміна) містити інформацію про ? θXθXθ

Цей аргумент розділення корисний ще й тому, що він вказує на випадки, коли його не можна використовувати, наприклад, регресію з відсталими відповідями в якості предикторів.


1
Я ціную питання, зосереджене на OLS, але щоб переконатися, що я зрозумів наслідки вашої відповіді, мені було цікаво, як це буде відтворюватися в частковій регресії найменших квадратів? Оскільки скорочення даних частково залежить від , це означає, що і мають загальні параметри? Y θ ψXYθψ
ReneBt

Я не знаю про PLS, але спробую подумати над цим
kjetil b halvorsen

1
Гарна відповідь! ...
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.