Я думав, що розумію це питання, але зараз я не такий впевнений і хотів би поговорити з іншими, перш ніж продовжувати.
У мене є дві змінні, Xі Y. Yє співвідношенням, і воно не обмежене 0 і 1 і, як правило, нормально розподілене. Xє пропорцією, і вона обмежена 0 і 1 (вона працює від 0,0 до 0,6). Коли я запускаю лінійну регресію , Y ~ Xі я вважаю, що Xі Yістотно лінійно пов'язані. Все йде нормально.
Але потім я досліджувати далі , і я починаю думати , що , може бути , Xі Yвідносини «s може бути більш криволінійним по порівнянні з лінійними. Для мене це виглядає як відносини Xі Yможе бути ближче до Y ~ log(X), Y ~ sqrt(X)або Y ~ X + X^2, або що - то в цьому роді. У мене є емпіричні причини припускати, що відносини можуть бути криволінійними, але не причини вважати, що будь-яке одне нелінійне відношення може бути кращим, ніж будь-яке інше.
У мене звідси пару споріднених питань. По-перше, моя Xзмінна приймає чотири значення: 0, 0,2, 0,4 і 0,6. Коли я реєструю ці дані або перетворюю квадратний корінь на ці дані, інтервал між цими значеннями спотворюється так, що значення 0 набагато далі від усіх інших. Через відсутність кращого способу запитання - це те, чого я хочу? Я припускаю, що це не так, оскільки я отримую дуже різні результати залежно від рівня спотворень, які я приймаю. Якщо це не те, чого я хочу, то як я повинен цього уникати?
По-друге, щоб перетворити ці дані в журнал, я повинен додати деяку суму до кожного Xзначення, оскільки ви не можете прийняти журнал 0. Коли я додаю дуже невелику кількість, скажімо 0,001, я отримую дуже суттєве спотворення. Коли я додаю більшу кількість, скажімо, 1, я отримую дуже мало спотворень. Чи є "правильна" сума, яку потрібно додати до Xзмінної? Або недоцільно додавати щось до Xзмінної замість вибору альтернативної трансформації (наприклад, куб-корінь) або моделі (наприклад, логістична регресія)?
Те, що мені мало вдалося дізнатися там у цьому питанні, залишає у мене таке відчуття, що я повинен ретельно ступати. Для інших користувачів R цей код створює деякі дані з подібною структурою, як і моя.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

