Підводні камені, яких слід уникати при перетворенні даних?

15

Я домігся сильної лінійної залежності між моєю змінною $X$ та $Y$ після подвійного перетворення відповіді. Модель була $Y\sim X$ але я перетворив її на $\sqrt{\frac{Y}{X}}\sim \sqrt{X}$ покращуючи $R^2$ від .19 до .76.

Зрозуміло, що я зробив деякі пристойні операції з цього приводу. Чи може хтось обговорити дефекти цього, наприклад, небезпеки надмірних перетворень чи можливих порушень статистичних принципів?

regression data-transformation r-squared

— Info5ek
джерело

1

З усього, що ви маєте, лише з алгебри це виглядає просто

. Чи можете ви розмістити дані чи показати графік? Чи є наукові причини очікувати

коли

?

Y \propto X^{2}

$Y \propto X^2$

Y = 0

$Y = 0$

X = 0

$X = 0$

— Нік Кокс

1

@ NickCox: Я думаю, що

є нетрадиційним позначенням для

; можливо, в ОП говорять R, а не математика (щось, звичайно, не варто відганяти).

Y \sim X

$Y\sim X$

E Y = β_{0} + β_{1} X

$\mathrm{E} Y=\beta_0 + \beta_1 X$

— Scortchi

@Scortchi Боюся, що ти маєш рацію. Перегляд даних допоможе в будь-якому випадку.

— Нік Кокс

У цьому випадку 0 X означатиме 0 Y, оскільки Y призводить до смерті, а X - загальний КМ, керований усіма водіями.

— Info5ek

2

@AaronHall Рівняння не обов'язково марне, оскільки (множення назад на

це

\sqrt{X}

$\sqrt X$

, що в деяких ситуаціях може бути потенційно правдоподібною моделлю). Однак

у формі рівняння, поданого у запитанні, не дуже корисний, ви не можете порівняти його з чимось встановленим в іншій шкалі. (До речі, якщо це було вашим судженням на мою відповідь, корисне пояснення того, що ви вважаєте неправильним у відповіді.)

\sqrt{Y} = β_{0} \sqrt{X} + β_{1} X + \sqrt{X} ϵ

$\sqrt Y = \beta_0 \sqrt X + \beta_1 X + \sqrt X\epsilon$

R^{2}

$R^2$

— Glen_b -Встановіть Моніку

20

Ви не можете реально порівнювати до і після, оскільки основна мінливість у $R^2$ $Y$ різна. Таким чином, ви буквально не можете заспокоїтись будь-якими змінами в . Це не говорить вам нічого корисного при порівнянні двох моделей. $R^2$

Дві моделі різні по-різному, тому вони означають різні речі - вони припускають дуже різні речі щодо форми взаємозв'язку та мінливості терміна помилки (якщо розглядати їх з точки зору взаємозв'язку між і ). Тож якщо ви зацікавлені в моделюванні (якщо має значення), створіть хорошу модель для цього. Якщо вас цікавить моделювання $Y$ $X$ $Y$ $Y$ (/ $\sqrt Y$ має сенс), створити для цього хорошу модель. Якщо $\sqrt Y$ має сенс, тоді зробіть для цього хорошу модель. Але порівняйте будь-які конкуруючі моделі на порівнянних масштабах. для різних відповідей просто не порівнянні. $\sqrt{Y/X}$ $R^2$

Якщо ви просто випробовуєте різні відносини, сподіваючись знайти трансформацію з високим - або будь-яким іншим показником "гарного пристосування" - на властивості будь-якого висновку, який ви могли б хотіти провести, впливатиме існування процес пошуку. $R^2$

Оцінки, як правило, відхиляються від нуля, стандартні помилки будуть занадто малі, значення p буде занадто малим, довірчі інтервали занадто вузькими. Ваші моделі будуть в середньому здаватися "занадто хорошими" (в тому сенсі, що їх поведінка поза вибіркою буде невтішною порівняно з поведінкою у вибірці).

Щоб уникнути подібного накладання, вам потрібно, якщо можливо, провести ідентифікацію моделі та оцінку для різних підмножин даних (та оцінку моделі на третину). Якщо ви повторите подібну процедуру на багатьох "розщепленнях" даних, взятих навмання, ви отримаєте краще розуміння того, наскільки відтворюються ваші результати.

Тут є багато публікацій з відповідними пунктами щодо цих питань: можливо, варто спробувати кілька пошукових запитів.

(Якщо у вас є вагомі апріорні причини для вибору конкретної трансформації, це вже інше питання. Але пошук простору перетворень, щоб знайти щось, що підходить, несе в собі всілякі проблеми типу "вивільнення даних".)

— Glen_b -Встановити Моніку
джерело

Дякую за відповідь, Глен. Причиною, що я зробив цю трансформацію, є те, що вона єдина, яка не дала мені упереджених залишків. Я спробував стандартні y / x, log (y), sqrt (y) та різні комбінації. Все це призвело до похилої залишкової ділянки. Лише після двоступеневої трансформації я отримав випадкові залишки. Однак ви стверджуєте, що ця модель є потенційно малоінформативною для вибіркових даних, оскільки я, можливо, просто перевищив ці дані, правда?

— Info5ek

Ну, так, але це проблема з будь-якою формою специфікації моделі при перегляді даних, тому трапляється багато. У багатьох ситуаціях важко уникнути, саме там може відбутися розбиття вибірки. (Перехресне підтвердження може бути зручним інструментом для таких ситуацій.)

— Glen_b -Встановити Моніку

Було б корисно дізнатись причини протистояння. Що не так у відповіді? Можливо, це можна вдосконалити. (Якщо її не вдається покращити, то навіщо знищення?)

— Glen_b -Встановіть Моніку

1

@Glen_b: Хоча хитріше перекреслити неправильно визначену процедуру - у кожному складі потрібно повторити процес перегляду діагностики, придумуючи іншу трансформацію, коли вони вам не сподобалися, намагаючись це тощо.

— Scortchi

1

@Scortchi Так, якщо перетворення не будуть обрані з відомого пула кандидатів за простим правилом, це може бути неможливим.

— Glen_b -Встановіть Моніку

16

Існує більша проблема, ніж ті, які ідентифікує @Glen_b.

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

І я отримую становить 0,49, і значення P, яке становить $R^2$ $5.5 \times 10^{-16}$ .

У вас є по обидва боки рівняння. $X$

— Пітер Флом - Відновити Моніку
джерело

2

Не впевнений, що це інша проблема - не мати априорних причин, щоб виразити модель в один спосіб, а не в інший. Якщо дозволити

&

W = \sqrt{\frac{Y}{X}}

$W=\sqrt{\frac{Y}{X}}$

тоді ви можете так само сказати, що перша модель (

) має

по обидва боки рівняння.

Z = \sqrt{X}

$Z=\sqrt{X}$

Y \sim X

$Y\sim X$

Z^{2}

$Z^2$

— Scortchi

4

Якщо

&

є випадковим шумом, регресування

на

дає сильний зв'язок. Звідки асиметрія, яка мітить одну регресію, хибною, а не іншою, без урахування того, що змінні навіть означають? Про подібні речі обговорювалося між Pearson & Yule ( Aldrich (1995) ) і я з Yule: те, що є хибним, не кореляція, а твердження про причинно-наслідкові зв’язки, засновані на цій кореляції.

W

$W$

Z

$Z$

Y

$Y$

X

$X$

— Scortchi

1

Так, але тут, регресія почалася з X і Y. чи не це важливо , які змінні є, так би мовити, що змінні?

— Пітер Флом - Відновіть Моніку

2

Не можу зрозуміти, чому це повинно бути, за винятком тих випадків, як, як вказує @Glen_b у своєму першому реченні, якщо вашою метою було передбачити

, то високий коефіцієнт визначення моделі для

- це нічого не заважає. І звичайно, якщо у вас є чіткі уявлення про те, як виглядає термін помилки, одна модель є більш простежуваною, ніж інша.

Y

$Y$

W

$W$

— Scortchi

4

Ви піднімаєте хорошу точку щодо W&Z, @Scortchi, але мені здається, що важливо те, що ви вважаєте змінними, які вас цікавлять, і які змінні ви створили просто для того, щоб отримати кращу модель. Які реальні змінні визначаються значенням X тощо в контексті змістовного питання. З тексту випливаю, що ОП хоче зрозуміти взаємозв'язок X / Y, і створила W&Z для поліпшення примірності моделі. Тобто в цьому конкретному випадку мені здається, що Пітер правий, ви не можете спробувати вдосконалити свою модель, поставивши X з обох сторін.

— gung - Відновіть Моніку

4

На прикладі @ Петра є два елементи, які можуть бути корисні для роз'єднання:

(1) Неправильна специфікація моделі. Моделі

y_{i} = β_{0} + β_{1} x_{i} + ε_{i} (1)

$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \qquad\text{(1)}$

&

w_{i} = γ_{0} + γ_{1} z_{i} + ζ_{i} (2)

$w_i=\gamma_0 + \gamma_1 z_i + \zeta_i \qquad\text{(2)}$

, де & $w_i=\sqrt{\frac{y_i}{x_i}}$ , не може бути істинним. Якщо ви повторно висловлюєте кожного у відповіді іншого, вони стають нелінійними в параметрах, з гетерокедастичними помилками. $z_i=\sqrt{x_i}$

w_{i} = \sqrt{\frac{β_{0}}{z_{i}^{2}} + β_{1} + \frac{ε_{i}}{z_{i}^{2}}} (1)

$w_i = \sqrt{\frac{\beta_0}{z_i^2} + \beta_1 + \frac{\varepsilon_i}{z_i^2}} \qquad\text{(1)}$

y_{i} = (γ_{0} {\sqrt{x}}_{i} + γ_{1} {\sqrt{x}}_{i} + ζ_{i} {\sqrt{x}}_{i})^{2} (2)

$y_i = (\gamma_0 \sqrt x_i + \gamma_1 \sqrt x_i + \zeta_i \sqrt x_i)^2 \qquad\text{(2)}$

$Y$ $X$ $\beta_1=0$ $W$ $Z$

$Y$ $X$ $W$ $Z$ $W$

E \sqrt{\frac{Y}{x}} = \frac{E \sqrt{Y}}{z} \approx \frac{\sqrt{β_{0}} + \frac{Var Y}{8 β_{0}^{3 / 2}}}{z}

$\operatorname{E} \sqrt\frac{Y}{x} = \frac{\operatorname{E}\sqrt{Y}}{z} \\ \approx \frac{\sqrt{\beta_0} + \frac{\operatorname{Var}{Y}}{8\beta_0^{3/2}}}{z}$

It is indeed a function of $z$ .

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

Neither Model 1 nor Model 2 is much use for predicting $y$ from $x$ , but both are all right for predicting $w$ from $z$ : mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of $w$ against $z$ , might be tempted to think that intervening to increase $z$ will reduce $w$ —we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.

— Scortchi - Reinstate Monica
джерело

3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in $R^2$ that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

— Frank Harrell
джерело