Регресія: перетворення змінних


41

Перетворюючи змінні, чи потрібно вам використовувати одне й те саме перетворення? Наприклад, чи можу я вибрати і вибрати різні змінені змінні, як у:

Нехай, - вік, тривалість роботи, тривалість проживання та дохід.x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Або ви повинні бути узгоджені зі своїми перетвореннями і використовувати все те саме? Як і в:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

Я розумію, що метою трансформації є вирішення проблеми нормальності. Переглядаючи гістограми кожної змінної, ми можемо побачити, що вони представляють дуже різні розподіли, що призведе до того, що потрібні перетворення різні за змінною ознакою.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

alt текст

log(xn+1)xn00

## R Code 
plot(df[1:7])

alt текст

Відповіді:


59

Один перетворює залежну змінну для досягнення приблизної симетрії і гомоскедастичність з залишків . Перетворення незалежних змінних мають інше призначення: адже в цій регресії всі незалежні значення приймаються як фіксовані, а не випадкові, тому "нормальність" не застосовується. Основна мета цих перетворень - досягнення лінійних зв’язків із залежною змінною (або, справді, з її логітом). (Ця мета переважає допоміжні, такі як зменшення надмірного важеляабо досягнення простої інтерпретації коефіцієнтів.) Ці взаємозв'язки є властивістю даних та явищ, що їх створили, тому вам потрібна гнучкість для вибору відповідних повторних виразів кожної зі змінних окремо від інших. Зокрема, це не тільки використання журналу, кореня та зворотного зв'язку, це досить поширене явище. Принцип полягає в тому, що (як правило) немає нічого особливого в тому, як спочатку дані виражаються, тому ви повинні дозволити даним запропонувати повторні вирази, що призводять до ефективних, точних, корисних та (якщо можливо) теоретично обгрунтованих моделей.

Гістограми - які відображають одноманітні розподіли - часто натякають на початкову трансформацію, але не є диспозитивною. Супроводжуйте їх матрицями розсіювання, щоб ви могли вивчити взаємозв'язки між усіма змінними.


log(x+c)cxlog(x)xzxxx=0і дорівнює 0. Ці умови вносять суму

βlog(x)+β0zx

x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)


1
Дуже корисний опис, дякую за вказівки та деталі мого підпитання.
Брендон Бертелсен

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002) рекомендує закріпити мінімальне значення в розподілі рівно 1,0. pareonline.net/getvn.asp?v=8&n=6
Кріс

1
11

1
В одному з моїх наборів даних, над якими я працюю, я помітив, якби я змістив залежну змінну відповіді на якір на 1 і застосував перетворення коксу кокса для усунення перекосу, отримана трансформація була послаблена, що призвело до вашої критики. ;)
Кріс

1
β0zx
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.