Я думав, що розумію це питання, але зараз я не такий впевнений і хотів би поговорити з іншими, перш ніж продовжувати.
У мене є дві змінні, X
і Y
. Y
є співвідношенням, і воно не обмежене 0 і 1 і, як правило, нормально розподілене. X
є пропорцією, і вона обмежена 0 і 1 (вона працює від 0,0 до 0,6). Коли я запускаю лінійну регресію , Y ~ X
і я вважаю, що X
і Y
істотно лінійно пов'язані. Все йде нормально.
Але потім я досліджувати далі , і я починаю думати , що , може бути , X
і Y
відносини «s може бути більш криволінійним по порівнянні з лінійними. Для мене це виглядає як відносини X
і Y
може бути ближче до Y ~ log(X)
, Y ~ sqrt(X)
або Y ~ X + X^2
, або що - то в цьому роді. У мене є емпіричні причини припускати, що відносини можуть бути криволінійними, але не причини вважати, що будь-яке одне нелінійне відношення може бути кращим, ніж будь-яке інше.
У мене звідси пару споріднених питань. По-перше, моя X
змінна приймає чотири значення: 0, 0,2, 0,4 і 0,6. Коли я реєструю ці дані або перетворюю квадратний корінь на ці дані, інтервал між цими значеннями спотворюється так, що значення 0 набагато далі від усіх інших. Через відсутність кращого способу запитання - це те, чого я хочу? Я припускаю, що це не так, оскільки я отримую дуже різні результати залежно від рівня спотворень, які я приймаю. Якщо це не те, чого я хочу, то як я повинен цього уникати?
По-друге, щоб перетворити ці дані в журнал, я повинен додати деяку суму до кожного X
значення, оскільки ви не можете прийняти журнал 0. Коли я додаю дуже невелику кількість, скажімо 0,001, я отримую дуже суттєве спотворення. Коли я додаю більшу кількість, скажімо, 1, я отримую дуже мало спотворень. Чи є "правильна" сума, яку потрібно додати до X
змінної? Або недоцільно додавати щось до X
змінної замість вибору альтернативної трансформації (наприклад, куб-корінь) або моделі (наприклад, логістична регресія)?
Те, що мені мало вдалося дізнатися там у цьому питанні, залишає у мене таке відчуття, що я повинен ретельно ступати. Для інших користувачів R цей код створює деякі дані з подібною структурою, як і моя.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)