Чи регресія x на y в цьому випадку явно краща, ніж y на x?


10

Прилад, який використовується для вимірювання рівня глюкози в крові людини, відстежується на випадковій вибірці з 10 осіб. Рівні вимірюються також за допомогою дуже точної лабораторної процедури. Міра приладу позначається x. Міра лабораторних процедур позначається y.

Я особисто вважаю, що y на x є більш правильним, оскільки намір полягає у використанні показань приладу для прогнозування лабораторних показань. І y на x мінімізує помилки таких прогнозів.

Але надана відповідь була х у.


2
Ласкаво просимо на сайт, @Neo. Якщо це питання було мотивоване вправою для класу / підручника, будь ласка, додайте [self-study]тег.
gung - Відновіть Моніку

Відповіді:


6

Багато лабораторних робіт, особливо експерименти з тестуванням приладів, застосовують такі х на регресії y.

Вони стверджують, що зі збору даних в експерименті керуються умови y, і отримують x від зчитування інструменту (вводячи в ньому деяку помилку). Це оригінальна фізична модель експерименту, тому помилка x ~ y + більше підходить.

Щоб мінімізувати похибку експерименту, іноді y контролюється в одній і тій же умові, то х вимірюється кілька разів (або повторний експеримент). Ця процедура може допомогти вам зрозуміти логіку, що стоїть за ними, і чіткіше знайти помилку x ~ y +.


+1 Я думаю, що відповідь поки що відповідь, це, мабуть, найкраще стосується оригінальної публікації. Це питання майже напевно було мотивоване розумінням інструменту, а не калібрування проксі. Якщо у вас є лише одне вимірювання X для кожного Y, я майже впевнений (коментар Ваубера вбік), що Y-on-X - це правильний підхід. Кілька X знищують це хоча, але X-on-Y все-таки правильний (але не придатний для прогнозування Y).
Короне

У вас є проблема @Corone: якщо обидва X і Y і Y проти X правильні, ми всі знаємо, що ви отримуєте чітко різні приталені лінії, коли менше . Який із цих двох рядків ви вибрали б і на якій основі? Правильне вирішення цієї дилеми полягає в тому, що - як пояснює Вінсент - існує асиметрія в нашій концепції помилки вимірювання: прилад вимірюється з помітною помилкою; Припускається, що лабораторія не має помітних помилок. Звичайні процедури регресії припускають, що X не має помилок, і вся помилка знаходиться в Y, так що це усуває. 1R21
whuber

@ whuber вони обидва правильні, але відповідають на різні проблеми. При декількох вимірюваннях X Y-on-X вже не є правильним для проблеми, на яку, як передбачається, відповісти. Мої коментарі стають нерозумними, але, натомість, замість цього
виправите

6

Як це зазвичай буває, різні аналізи дають відповіді на різні запитання. І і можуть бути дійсними тут, ви просто хочете, щоб ваш аналіз відповідав на питання, на яке ви хочете відповісти. (Докладніше в цих рядках ви можете прочитати тут мою відповідь: Яка різниця між лінійною регресією на Y з X і X з Y? )X  на  YY on XX on Y

Ви маєте рацію , що якщо все , що ви хочете зробити , це передбачити найбільш ймовірне значення , дане знання з значення, ви б регресувати . Однак якщо ви хочете зрозуміти, як ці заходи пов'язані один з одним, ви можете скористатися підходом помилок змінних , оскільки ви вважаєте, що в є помилка вимірювання . X Y  на  X XYXY on XX

З іншого боку, регрес (і припускаючи абсолютно безпомилковим - так званий золотий стандарт ) дозволяє вивчати властивості вимірювань по . Наприклад, ви можете визначити, чи інструмент стає упередженим, коли справжнє значення збільшується (або зменшується), оцінюючи, чи функція пряма чи вигнута. Y XX on YYX

При спробі зрозуміти властивість вимірювального приладу, розуміючи природу помилки вимірювання дуже важливо, і це може бути зроблено шляхом регресу . Наприклад, перевіряючи наявність гомоскедастичності, можна визначити, чи змінюється похибка вимірювання залежно від рівня справжнього значення конструкції. Часто з інструментами трапляється, що в крайніх межах його діапазону більше помилок вимірювання, ніж посередині його застосовного діапазону (тобто, його «солодкої плями»), тому ви можете визначити це чи, можливо, визначити, що його найбільш підходить асортимент є. Ви також можете оцінити сумуYX on Yпохибка вимірювання у вашому приладі з середньоквадратичною помилкою (залишкове стандартне відхилення); Звичайно, це передбачає гомоскедастичність, але ви також можете отримати оцінки в різних точках на встановивши гладку функцію, як сплайн , для залишків. Y

Зважаючи на ці міркування, я думаю, що кращий, але це, безумовно, залежить від ваших цілей. X on Y


+1 Для визнання того, що регресування на вимагає змінних помилок і що відповідь дійсно вимагає розуміння цілей аналізу. XYX
whuber

@whuber Помилки змінних не підходять для прогнозування. Помилки змінних корисні, якщо ви хочете зрозуміти величину співвідношення, але маєте помилки вимірювання в X та Y. Для прогнозування X "відомий без помилок", доки він збирається таким же чином у вашому навчальному наборі та прогноз встановити.
Короне

@Corone Ви вірні, що помилки в змінних не підходять для прогнозування, але це не те, що рекомендується, наскільки я можу сказати. Дійсно, саме тому потрібно реагувати на інструменті проти лабораторії (яка використовує лише OLS), а не навпаки. Будь ласка, зверніться до посилання Draper & Smith, яку я цитую в іншому коментарі до цієї теми. Я покладаюся на розділ 1.7 другого видання.
whuber

@Corone, ти маєш рацію щодо прогнозування / помилок у змінних, але це не зовсім те, що я мав намір сказати. Я спробую придумати кращий спосіб її сформулювати.
gung - Відновіть Моніку

4

Прогнозування та прогнозування

Так, ви правильно, якщо розцінювати це як проблему прогнозування, регресія Y-on-X дасть вам таку модель, що за допомогою вимірювання приладу ви зможете зробити неупереджену оцінку точного вимірювання лабораторії, не роблячи процедури лабораторії. .

По-іншому, якщо вас просто цікавить тоді ви хочете регресії Y-on-X.E[Y|X]

Це може здатися протиінтуїтивно зрозумілим, оскільки структура помилок не є "справжньою". Якщо припустити, що лабораторний метод є золотим стандартним методом без помилок, то ми "знаємо", що справжня модель генерації даних є

Xi=βYi+ϵi

де і є незалежним ідентичним розподілом, аϵ i E [ ϵ ] = 0YiϵiE[ϵ]=0

Ми зацікавлені, щоб отримати найкращу оцінку . Зважаючи на нашу незалежність, ми можемо переставити вищезазначене:E[Yi|Xi]

Yi=Xiϵβ

Тепер, якщо приймати очікування, отримані це те, де все стає волохатимXi

E[Yi|Xi]=1βXi1βE[ϵi|Xi]

Проблема полягає в терміні - він дорівнює нулю? Це насправді не має значення, тому що ви його ніколи не бачите, і ми лише моделюємо лінійні терміни (або аргумент поширюється на будь-які терміни, які ви моделюєте). Будь-яка залежність між та може бути просто поглинена константою, яку ми оцінюємо.E[ϵi|Xi]ϵX

Явно без втрати загальності ми можемо дозволити

ϵi=γXi+ηi

Де за визначенням, так що тепер маємоE[ηi|X]=0

YI=1βXiγβXi1βηi

YI=1γβXi1βηi

що відповідає всім вимогам OLS, оскільки зараз екзогенна. Не має значення навіть те, що термін помилки також містить оскільки ні ні не відомі і повинні бути оцінені. Тому ми можемо просто замінити ці константи на нові та використовувати звичайний підхідηββσ

YI=αXi+ηi

Зауважте, що ми НЕ оцінювали кількість яку я спочатку записав - ми створили найкращу модель, яку ми можемо використовувати для використання X як проксі для Y.β

Аналіз приладів

Людина, яка поставила вам це питання, явно не хотіла відповіді вище, оскільки вони кажуть, що X-on-Y - це правильний метод, то чому б вони могли цього хотіти? Швидше за все, вони розглядали завдання розуміння інструменту. Як обговорювалося у відповіді Вінсента, якщо ви хочете дізнатися про те, що вони хочуть, щоб інструмент поводився, X-on-Y - це шлях.

Повертаючись до першого рівняння вище:

Xi=βYi+ϵi

Людина, яка ставить питання, могла подумати про калібрування. Кажуть, що інструмент відкалібрований, коли очікування дорівнює справжньому значенню - тобто . Зрозуміло, щоб калібрувати вам потрібно знайти , і щоб калібрувати інструмент, вам потрібно зробити регресію X-on-Y.E[Xi|Yi]=YiXβ

Усадка

Калібрування - це інтуїтивно зрозуміла вимога інструменту, але це також може викликати плутанину. Зауважте, що навіть добре відкалібрований інструмент не покаже вам очікуваного значення ! Щоб отримати вам все одно потрібно виконати регресію Y-on-X навіть з добре відкаліброваним інструментом. Ця оцінка, як правило, буде схожа на зменшену версію значення інструменту (згадайте термін який прокрався). Зокрема, щоб отримати дійсно хорошу оцінку Ви повинні включити ваше попереднє знання про розподіл . Потім це призводить до таких понять, як регресія до середнього та емпіричний байес.YE[Y|X]γE[Y|X]Y

Приклад на R Один із способів зрозуміти, що відбувається тут, - це створити деякі дані та спробувати методи. Нижче наведений код порівнює X-on-Y з Y-on-X для прогнозування та калібрування, і ви можете швидко побачити, що X-on-Y не є корисною для моделі прогнозування, але це правильна процедура калібрування.

library(data.table)
library(ggplot2)

N = 100
beta = 0.7
c = 4.4

DT = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT[, X := 0.7*Y + c + epsilon]

YonX = DT[, lm(Y~X)]   # Y = alpha_1 X + alpha_0 + eta
XonY = DT[, lm(X~Y)]   # X = beta_1 Y + beta_0 + epsilon


YonX.c = YonX$coef[1]   # c = alpha_0
YonX.m = YonX$coef[2]   # m = alpha_1

# For X on Y will need to rearrage after the fit.
# Fitting model X = beta_1 Y + beta_0
# Y = X/beta_1 - beta_0/beta_1

XonY.c = -XonY$coef[1]/XonY$coef[2]      # c = -beta_0/beta_1
XonY.m = 1.0/XonY$coef[2]  # m = 1/ beta_1

ggplot(DT, aes(x = X, y =Y)) + geom_point() +  geom_abline(intercept = YonX.c, slope = YonX.m, color = "red")  +  geom_abline(intercept = XonY.c, slope = XonY.m, color = "blue")

# Generate a fresh sample

DT2 = data.table(Y = rt(N, 5), epsilon = rt(N,8))
DT2[, X := 0.7*Y + c + epsilon]

DT2[, YonX.predict := YonX.c + YonX.m * X]
DT2[, XonY.predict := XonY.c + XonY.m * X]

cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])

# Generate lots of samples at the same Y

DT3 = data.table(Y = 4.0, epsilon = rt(N,8))
DT3[, X := 0.7*Y + c + epsilon]

DT3[, YonX.predict := YonX.c + YonX.m * X]
DT3[, XonY.predict := XonY.c + XonY.m * X]

cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])

ggplot(DT3) + geom_density(aes(x = YonX.predict), fill = "red", alpha = 0.5) + geom_density(aes(x = XonY.predict), fill = "blue", alpha = 0.5) + geom_vline(x = 4.0, size = 2) + ggtitle("Calibration at 4.0")

Дві регресійні лінії нанесені на дані

введіть тут опис зображення

І тоді сума помилок квадратів для Y вимірюється для обох підходив на новому зразку.

> cat("YonX sum of squares error for prediction: ", DT2[, sum((YonX.predict - Y)^2)])
YonX sum of squares error for prediction:  77.33448
> cat("XonY sum of squares error for prediction: ", DT2[, sum((XonY.predict - Y)^2)])
XonY sum of squares error for prediction:  183.0144

Альтернативно, вибірка може бути сформована при фіксованому Y (у цьому випадку 4), а потім середньому серед оцінок, взятих. Тепер ви можете бачити, що передбачувач Y-on-X недостатньо калібрований із очікуваним значенням значно нижчим, ніж Y. Прогноктор X-on-Y добре калібрований і має очікуване значення, близьке до Y.

> cat("Expected value of X at a given Y (calibrated using YonX) should be close to 4: ", DT3[, mean(YonX.predict)])
Expected value of X at a given Y (calibrated using YonX) should be close to 4:  1.305579
> cat("Expected value of X at a gievn Y (calibrated using XonY) should be close to 4: ", DT3[, mean(XonY.predict)])
Expected value of X at a gievn Y (calibrated using XonY) should be close to 4:  3.465205

Розподіл двох прогнозів можна побачити на графіку щільності.

введіть тут опис зображення


Ні, ОП невірна: регресія Y-on-X передбачає чітко іншу модель варіації, ніж описана в проблемі, і тому, ймовірно, не буде відповідною процедурою. Коли мета полягає в тому, щоб передбачити від і саме вимірюється з помітною помилкою, то ви опинилися в ситуації зворотної регресії . Це обговорюється, наприклад, у Draper & Smith, Applied Regression Analysis . YXX
whuber

3
Проблема полягає в тому, що ви не дивитесь на повну модель, яка є зКоли ви інвертуєте цю алгебраїчно, ви отримуєте . Він дійсно може бути переписаний у вигляді але тепер : відхилення залишків залежать від схилу! Якщо помітне, розміщення найменших квадратів не є хорошим, а його дисперсійні оцінки неправильні. Var ( ϵ ) = σ 2 . X = ( Y - β 0 - ϵ ) / β 1 X = α 0 + α 1 Y + δ Var ( δ ) = σ 2 α 2 1 σ 2Y=β0+β1X+ϵVar(ϵ)=σ2.X=(Yβ0ϵ)/β1X=α0+α1Y+δVar(δ)=σ2α12σ2
whuber

1
Редагування робить вирішальну помилку: "Не має значення навіть у тому, що термін помилки також містить ." Навпаки, це має велике значення (запишіть ймовірність побачити). Зокрема, алгоритм найменших квадратів більше не має властивостей, які ви очікуєте, і оцінка максимальної ймовірності відрізняється від того, що ви думаєте. До речі, ваші приклади неможливо зрозуміти, не прочитавши код, адже це зовсім не ясно, який метод показаний червоним, а який синім! β
whuber

2
Y може бути випадковою змінною популяції людей, але для будь-якої людини це параметр, який слід оцінити. Регресування Y на X скорочує кожну оцінку Y у бік середньої групи, що зменшує середню квадратичну помилку над людьми, але створює систематичні ухили, які можуть бути неприйнятними з етичних чи юридичних причин. Регресування X на Y дає інформацію, яка може бути використана для побудови неупередженого інтервалу довіри для Y кожної людини, але ці інтервали мають тенденцію бути широкими, як синя зона в графіці, тоді як інтервал прогнозування від регресування Y на X вужчий, але упереджений , як червоний.
Рей Коопман

1
@RayKoopman - це чудовий спосіб його викласти! Так - Y на X - це отримання найкращого прогнозу в середньому за великою кількістю різних Ys, тоді як калібрування - про те, щоб бути справедливим та неупередженим для окремої людини Y.
Korone,

2

Це залежить від ваших припущень щодо дисперсії X та дисперсії Y для звичайних найменших квадратів. Якщо Y має єдине джерело дисперсії, а X має нульову дисперсію, тоді використовуйте X для оцінки Y. Якщо припущення є навпаки (X має єдину дисперсію, а Y має нульову дисперсію), тоді використовуйте Y для оцінки X.

Якщо вважають, що і X, і Y мають дисперсію, можливо, вам знадобиться врахувати загальні найменші квадрати .

Хороший опис TLS був написаний за цим посиланням . Документ орієнтований на торгівлю, але розділ 3 добре описує TLS.

Редагувати 1 (10.10.2013) ============================================ ======

Спочатку я припускав, що це якась проблема домашнього завдання, тому я не отримав реальної конкретності щодо "відповіді" на питання ОП. Але, прочитавши інші відповіді, схоже, що все в порядку детальніше.

Цитуючи частину питання ОП:

".... Рівні вимірюються також за допомогою дуже точної лабораторної процедури ...."

Вищенаведене твердження говорить про те, що є два вимірювання: одне з приладового та одне з лабораторної процедури. З твердження також випливає, що дисперсія для лабораторної процедури є низькою порівняно з дисперсією для приладу.

Ще одна цитата з питання ОП:

".... Міра лабораторної процедури позначається y ....."

Отже, з вищезазначених двох тверджень Y має нижчу дисперсію. Отже, найменш схильна до помилок методика - використовувати Y для оцінки X. "Надана відповідь" була правильною.


1
XY

Ні, вибір регресії не слід робити залежно від того, де є дисперсія - він повинен бути зроблений на основі запитання, на яке ви намагаєтесь відповісти. При використанні TLS для побудови моделі прогнозування для Y даного X ви будете неправі. TLS та подібні моделі помилок у змінних - це все про розуміння справжнього зв’язку між основними змінними / процесами - а не про прогнозування
Korone,

1
@Corone Хоча ви впевнені, що цілі орієнтуються на вибір статистичних процедур, процедура також повинна відповідати моделі ймовірності ("де дисперсія"). Якщо ваша мета полягає в тому, щоб передбачити читання лабораторії від зчитування приладів з великою дисперсією, то обов'язково виберіть відповідну для цього процедуру: але ця процедура не є прогнозуванням, використовуючи звичайні найменші квадратні розміри та її дисперсійні оцінки.
whuber

1
@Corone - Я погоджуюся, що методика регресії повинна ґрунтуватися на питанні, на яке ви намагаєтесь відповісти, однак обрана методика містить припущення про дисперсію змінних. Якщо припущення щодо варіації вибору не відповідають вашій концепції для моделі, ви вибрали неправильну техніку. Тому я перерахував 3 можливості (нульова дисперсія X для оцінки Y; нульова дисперсія Y для оцінки X; або ненульова дисперсія X та Y).
bill_080
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.