Який найбільш підходящий спосіб перетворення пропорцій, коли вони є незалежною змінною?


12

Я думав, що розумію це питання, але зараз я не такий впевнений і хотів би поговорити з іншими, перш ніж продовжувати.

У мене є дві змінні, Xі Y. Yє співвідношенням, і воно не обмежене 0 і 1 і, як правило, нормально розподілене. Xє пропорцією, і вона обмежена 0 і 1 (вона працює від 0,0 до 0,6). Коли я запускаю лінійну регресію , Y ~ Xі я вважаю, що Xі Yістотно лінійно пов'язані. Все йде нормально.

Але потім я досліджувати далі , і я починаю думати , що , може бути , Xі Yвідносини «s може бути більш криволінійним по порівнянні з лінійними. Для мене це виглядає як відносини Xі Yможе бути ближче до Y ~ log(X), Y ~ sqrt(X)або Y ~ X + X^2, або що - то в цьому роді. У мене є емпіричні причини припускати, що відносини можуть бути криволінійними, але не причини вважати, що будь-яке одне нелінійне відношення може бути кращим, ніж будь-яке інше.

У мене звідси пару споріднених питань. По-перше, моя Xзмінна приймає чотири значення: 0, 0,2, 0,4 і 0,6. Коли я реєструю ці дані або перетворюю квадратний корінь на ці дані, інтервал між цими значеннями спотворюється так, що значення 0 набагато далі від усіх інших. Через відсутність кращого способу запитання - це те, чого я хочу? Я припускаю, що це не так, оскільки я отримую дуже різні результати залежно від рівня спотворень, які я приймаю. Якщо це не те, чого я хочу, то як я повинен цього уникати?

По-друге, щоб перетворити ці дані в журнал, я повинен додати деяку суму до кожного Xзначення, оскільки ви не можете прийняти журнал 0. Коли я додаю дуже невелику кількість, скажімо 0,001, я отримую дуже суттєве спотворення. Коли я додаю більшу кількість, скажімо, 1, я отримую дуже мало спотворень. Чи є "правильна" сума, яку потрібно додати до Xзмінної? Або недоцільно додавати щось до Xзмінної замість вибору альтернативної трансформації (наприклад, куб-корінь) або моделі (наприклад, логістична регресія)?

Те, що мені мало вдалося дізнатися там у цьому питанні, залишає у мене таке відчуття, що я повинен ретельно ступати. Для інших користувачів R цей код створює деякі дані з подібною структурою, як і моя.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

Ви кажете, що Y - це пропорція, але у ваших даних вона становить від 6 до 10?

Так, я це зафіксував вище - це співвідношення, а не пропорція.
Bajcz

Відповіді:


13

x

0,1

logxlog0log(x+c)c

10c=10klog10(x+10k)x=0k

k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

k=6,9,0x=10

c0

log(x+c)logxcxxlogxxx0

x=0x=1

xpx=0,10

xp(1x)pp=1/2p=1/3

logit x=logxlog(1x)p0x=0,1p0

01

  • 0.010.02x0.01

  • 0.980.99x0.011x

  • 0.500.51x0.01

01

x=0,1

log(x+0.001)

Я хочу зробити два основні моменти

  1. log(x+c)x

  2. Для вашого прикладу, здається, не допомагає жодна трансформація, яку я спробував.

У той же час інші можливості далеко не вичерпані. (Зокрема, я не пробував корінь квадратного чи кубикового коріння, і наголошую, що в багатьох інших проблемах вони можуть бути очевидними та серйозними кандидатами.)

01

введіть тут опис зображення

R2=3.7=0.994

введіть тут опис зображення

y610

EDIT: Оригінальні дані тут можуть бути нанесені, оскільки ОП коротко розмістила дані, але потім їх видалила.

Інші теми, що використовують складені повноваження, включають

Перетворення даних про пропорції: коли квадратного кореня арцина недостатньо

Регресія: Scatterplot з низьким R квадратом та високими p-значеннями

Накресліть набір даних із сильним перекосом


Відмінна відповідь і дуже ґрунтовна. Я думаю, що я повинен сказати Y, що це співвідношення, а не пропорція, що, мабуть, є досить суттєвою різницею, тому вам було добре вказати.
Bajcz

Пропорції обмежені у міру їх визначення. Дякую за роз’яснення, яке не має ніякого значення для мого аналізу (саме тому я позначив це крихітною деталлю).
Нік Кокс

2
Подальший коментар: В принципі, ви можете перевірити кривизну і т. Д., Використовуючи сплайни або плавніші, але тільки з 4 різними рівнями прогноктора це непросто. Я б врахував кількісну регресію ваших даних.
Нік Кокс

x2x310x=0,1
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.