Методи встановлення "простої" моделі помилки вимірювання


13

Я шукаю методи, які можна використовувати для оцінки моделі помилки вимірювання "OLS".

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

Де помилки є незалежними нормальними з невідомими відхиленнями і . "Стандартний" OLS в цьому випадку не працюватиме.σy2σx2

У Вікіпедії є кілька непривабливих рішень - ці два змушують вас припускати, що або "коефіцієнт дисперсії" або " коефіцієнт надійності " відомо, де - дисперсія справжнього регресора . Мене це не влаштовує, бо як може хтось, хто не знає відхилень, знати їх співвідношення?δ=σy2σx2λ=σX2σx2+σX2σX2Xi

Як би там не було, крім цих двох інших рішень, які не вимагають від мене нічого "знати" про параметри?

Рішення для просто перехрестя і нахилу чудово.


сама стаття у Вікіпедії дає вам відповідь на це питання. Якщо ви припускаєте нормальність «справжнього» регресора, тоді вам потрібні подальші умови щодо розподілу помилок. Якщо справжній регресор не Гаусс, то ви маєте надію. Див. Рейерсол (1950) .
кардинал

також, що ви маєте на увазі під "Рішення для просто перехоплення та нахилу - це добре". Це твої лише два параметри! Або ви сподівалися спробувати відмовитись від "справжнього" регресора?
кардинал

@cardinal - Я мав на увазі, що я не особливо переймався двома параметрами шкали, і, як ви кажете, "справжнім" регресором . Xi
ймовірністьілогічний

Я бачу. Що має сенс.
кардинал

Відповіді:


7

Існує цілий ряд можливостей, описаних JW Gillard в Історичному огляді лінійної регресії з помилками в обох змінних.

Якщо вас не цікавлять деталі чи причини вибору одного методу над іншим, просто перейдіть до найпростішого, який полягає в проведенні лінії через центр з нахилом , тобто відношення спостережуваних стандартних відхилень (що робить знак нахилу таким же, як знак коваріації і ); як ви, напевно, можете розробити, це дає перехоплення на -осі& beta ; = s у / и х х у у α = ˉ у - & beta ; ˉ х .(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

Заслуги цього конкретного підходу є

  1. він дає той самий рядок, порівнюючи проти як проти ,y y xxyyx
  2. це інваріантність масштабів, тому вам не потрібно турбуватися про одиниці,
  3. він лежить між двома звичайними лінійними регресійними лініями
  4. вона перетинає їх там, де вони перетинають один одного в центрі спостережень, і
  5. це дуже легко обчислити.

Ухил - це геометричне середнє значення схилів двох звичайних схилів лінійної регресії. Це також, що ви отримаєте, якби стандартизували спостереження і , намалювали лінію на 45 ° (або 135 °, якщо є негативна кореляція), а потім де-стандартизували лінію. Це також можна розглядати як рівнозначне неявним припущенням, що дисперсії двох наборів помилок пропорційні дисперсії двох наборів спостережень; наскільки я можу сказати, ви стверджуєте, що не знаєте, в який спосіб це неправильно.уxy

Ось декілька код R для ілюстрації: червона лінія на графіку - це OLS регресія на , синя лінія - OLS регресія на , а зелена лінія - це простий метод. Зверніть увагу, що нахил повинен бути приблизно 5.X X YYXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")

@ Генрі, твоє визначення не має для мене сенсу. Деякі "шапки" відсутні? β^
кардинал

Це означає середнє спостережуване стандартне відхилення поділене на спостережуване стандартне відхилення . Я зміню на{ x i } σ s{yi}{xi}σs
Генрі

@ Генрі, ти можеш уточнити деякі свої коментарі? Щось вражає мене як відключене, грунтуючись на вашому поточному описі. Нехай - нахил, припускаючи, що - відповідь, а - предиктор. Нехай - нахил, припускаючи, що - відповідь, а - провісник. Тоді та , де - співвідношення вибірки між і . Звідси середнє геометричне значення цих двох оцінок нахилу просто .ух β уххβ^xyyxβ^yxxyβ^xy=ρ^sy/sxβ^yx=ρ^sx/syρ^xyρ^
кардинал

@cardinal: Ні - коли я бачу я маю на увазі нахил оскільки його можна переписати як . Якщо ви намагаєтеся намалювати дві лінії OLS на одному графіку разом із спостережуваними точками (наприклад, з на вертикальній осі та на горизонтальній осі), ви повинні перевернути один з нахилів. Отже, я мав на увазі, що ви берете середнє геометричне значення та , що просто . Або, якщо ви нетрадиційні, щоб побудувати і навпаки обох прямих і спостережуваних точок, ви отримаєте зворотну частину цього як нахил.1 / б у = х / б - з / б у й ρ з у / и х з у / ρ и х з у / и х у йx=by+c1/by=x/bc/byxρ^sy/sxsy/ρ^sxsy/sxyx
Генрі

@ Генрі - це досить цікава відповідь. Я не обов'язково сумніваюся в його достовірності, але одне, що мене дивує, - це те, що кореляція / коваріація між та повністю відсутня у відповіді. Звичайно, це має відповідати відповіді? XYX
ймовірністьлогічний
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.