Підводні камені, яких слід уникати при перетворенні даних?


15

Я домігся сильної лінійної залежності між моєю змінною X та Y після подвійного перетворення відповіді. Модель була YX але я перетворив її на YXX покращуючиR2від .19 до .76.

Зрозуміло, що я зробив деякі пристойні операції з цього приводу. Чи може хтось обговорити дефекти цього, наприклад, небезпеки надмірних перетворень чи можливих порушень статистичних принципів?


1
З усього, що ви маєте, лише з алгебри це виглядає просто . Чи можете ви розмістити дані чи показати графік? Чи є наукові причини очікувати Y = 0, коли X = 0 ? YX2Y=0X=0
Нік Кокс

1
@ NickCox: Я думаю, що є нетрадиційним позначенням для E Y = β 0 + β 1 X ; можливо, в ОП говорять R, а не математика (щось, звичайно, не варто відганяти). YXEY=β0+β1X
Scortchi

@Scortchi Боюся, що ти маєш рацію. Перегляд даних допоможе в будь-якому випадку.
Нік Кокс

У цьому випадку 0 X означатиме 0 Y, оскільки Y призводить до смерті, а X - загальний КМ, керований усіма водіями.
Info5ek

2
@AaronHall Рівняння не обов'язково марне, оскільки (множення назад на цеX, що в деяких ситуаціях може бути потенційно правдоподібною моделлю). ОднакR2у формі рівняння, поданого у запитанні, не дуже корисний, ви не можете порівняти його з чимось встановленим в іншій шкалі. (До речі, якщо це було вашим судженням на мою відповідь, корисне пояснення того, що ви вважаєте неправильним у відповіді.)Y=β0X+β1X+XϵR2
Glen_b -Встановіть Моніку

Відповіді:


20

Ви не можете реально порівнювати до і після, оскільки основна мінливість у YR2Y різна. Таким чином, ви буквально не можете заспокоїтись будь-якими змінами в . Це не говорить вам нічого корисного при порівнянні двох моделей.R2

Дві моделі різні по-різному, тому вони означають різні речі - вони припускають дуже різні речі щодо форми взаємозв'язку та мінливості терміна помилки (якщо розглядати їх з точки зору взаємозв'язку між і X ). Тож якщо ви зацікавлені в моделюванні Y (якщо Y має значення), створіть хорошу модель для цього. Якщо вас цікавить моделювання YXYY (/Y має сенс), створити для цього хорошу модель. ЯкщоY має сенс, тоді зробіть для цього хорошу модель. Але порівняйте будь-які конкуруючі моделі на порівнянних масштабах. R2для різних відповідей просто не порівнянні.Y/XR2

Якщо ви просто випробовуєте різні відносини, сподіваючись знайти трансформацію з високим - або будь-яким іншим показником "гарного пристосування" - на властивості будь-якого висновку, який ви могли б хотіти провести, впливатиме існування процес пошуку.R2

Оцінки, як правило, відхиляються від нуля, стандартні помилки будуть занадто малі, значення p буде занадто малим, довірчі інтервали занадто вузькими. Ваші моделі будуть в середньому здаватися "занадто хорошими" (в тому сенсі, що їх поведінка поза вибіркою буде невтішною порівняно з поведінкою у вибірці).

Щоб уникнути подібного накладання, вам потрібно, якщо можливо, провести ідентифікацію моделі та оцінку для різних підмножин даних (та оцінку моделі на третину). Якщо ви повторите подібну процедуру на багатьох "розщепленнях" даних, взятих навмання, ви отримаєте краще розуміння того, наскільки відтворюються ваші результати.

Тут є багато публікацій з відповідними пунктами щодо цих питань: можливо, варто спробувати кілька пошукових запитів.

(Якщо у вас є вагомі апріорні причини для вибору конкретної трансформації, це вже інше питання. Але пошук простору перетворень, щоб знайти щось, що підходить, несе в собі всілякі проблеми типу "вивільнення даних".)


Дякую за відповідь, Глен. Причиною, що я зробив цю трансформацію, є те, що вона єдина, яка не дала мені упереджених залишків. Я спробував стандартні y / x, log (y), sqrt (y) та різні комбінації. Все це призвело до похилої залишкової ділянки. Лише після двоступеневої трансформації я отримав випадкові залишки. Однак ви стверджуєте, що ця модель є потенційно малоінформативною для вибіркових даних, оскільки я, можливо, просто перевищив ці дані, правда?
Info5ek

Ну, так, але це проблема з будь-якою формою специфікації моделі при перегляді даних, тому трапляється багато. У багатьох ситуаціях важко уникнути, саме там може відбутися розбиття вибірки. (Перехресне підтвердження може бути зручним інструментом для таких ситуацій.)
Glen_b -Встановити Моніку

Було б корисно дізнатись причини протистояння. Що не так у відповіді? Можливо, це можна вдосконалити. (Якщо її не вдається покращити, то навіщо знищення?)
Glen_b -Встановіть Моніку

1
@Glen_b: Хоча хитріше перекреслити неправильно визначену процедуру - у кожному складі потрібно повторити процес перегляду діагностики, придумуючи іншу трансформацію, коли вони вам не сподобалися, намагаючись це тощо.
Scortchi

1
@Scortchi Так, якщо перетворення не будуть обрані з відомого пула кандидатів за простим правилом, це може бути неможливим.
Glen_b -Встановіть Моніку

16

Існує більша проблема, ніж ті, які ідентифікує @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

І я отримую становить 0,49, і значення P, яке становить 5,5 × 10 - 16R25.5×1016 .

У вас є по обидва боки рівняння.X


2
Не впевнений, що це інша проблема - не мати априорних причин, щоб виразити модель в один спосіб, а не в інший. Якщо дозволити &Z=W=YX тоді ви можете так само сказати, що перша модель (YX) маєZ2по обидва боки рівняння. Z=XYXZ2
Scortchi

4
Якщо & Z є випадковим шумом, регресування Y на X дає сильний зв'язок. Звідки асиметрія, яка мітить одну регресію, хибною, а не іншою, без урахування того, що змінні навіть означають? Про подібні речі обговорювалося між Pearson & Yule ( Aldrich (1995) ) і я з Yule: те, що є хибним, не кореляція, а твердження про причинно-наслідкові зв’язки, засновані на цій кореляції. WZYX
Scortchi

1
Так, але тут, регресія почалася з X і Y. чи не це важливо , які змінні є, так би мовити, що змінні?
Пітер Флом - Відновіть Моніку

2
Не можу зрозуміти, чому це повинно бути, за винятком тих випадків, як, як вказує @Glen_b у своєму першому реченні, якщо вашою метою було передбачити , то високий коефіцієнт визначення моделі для W - це нічого не заважає. І звичайно, якщо у вас є чіткі уявлення про те, як виглядає термін помилки, одна модель є більш простежуваною, ніж інша. YW
Scortchi

4
Ви піднімаєте хорошу точку щодо W&Z, @Scortchi, але мені здається, що важливо те, що ви вважаєте змінними, які вас цікавлять, і які змінні ви створили просто для того, щоб отримати кращу модель. Які реальні змінні визначаються значенням X тощо в контексті змістовного питання. З тексту випливаю, що ОП хоче зрозуміти взаємозв'язок X / Y, і створила W&Z для поліпшення примірності моделі. Тобто в цьому конкретному випадку мені здається, що Пітер правий, ви не можете спробувати вдосконалити свою модель, поставивши X з обох сторін.
gung - Відновіть Моніку

4

На прикладі @ Петра є два елементи, які можуть бути корисні для роз'єднання:

(1) Неправильна специфікація моделі. Моделі

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

, де &zi=wi=yixi , не може бути істинним. Якщо ви повторно висловлюєте кожного у відповіді іншого, вони стають нелінійними в параметрах, з гетерокедастичними помилками.zi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

YXβ1=0WZ

YXWZW

EYx=EYzβ0+VarY8β03/2z

It is indeed a function of z.

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

Neither Model 1 nor Model 2 is much use for predicting y from x, but both are all right for predicting w from z: mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z, might be tempted to think that intervening to increase z will reduce w—we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.


3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in R2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.