Регресія: перетворення змінних

Перетворюючи змінні, чи потрібно вам використовувати одне й те саме перетворення? Наприклад, чи можу я вибрати і вибрати різні змінені змінні, як у:

Нехай, - вік, тривалість роботи, тривалість проживання та дохід. $x_1,x_2,x_3$

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Або ви повинні бути узгоджені зі своїми перетвореннями і використовувати все те саме? Як і в:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3)

Я розумію, що метою трансформації є вирішення проблеми нормальності. Переглядаючи гістограми кожної змінної, ми можемо побачити, що вони представляють дуже різні розподіли, що призведе до того, що потрібні перетворення різні за змінною ознакою.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7])

alt текст

$\log(x_n + 1)$ $x_n$ $0$ $0$

## R Code 
plot(df[1:7])

alt текст

r regression logistic data-transformation

— Брендон Бертельсен
джерело

Один перетворює залежну змінну для досягнення приблизної симетрії і гомоскедастичність з залишків . Перетворення незалежних змінних мають інше призначення: адже в цій регресії всі незалежні значення приймаються як фіксовані, а не випадкові, тому "нормальність" не застосовується. Основна мета цих перетворень - досягнення лінійних зв’язків із залежною змінною (або, справді, з її логітом). (Ця мета переважає допоміжні, такі як зменшення надмірного важеляабо досягнення простої інтерпретації коефіцієнтів.) Ці взаємозв'язки є властивістю даних та явищ, що їх створили, тому вам потрібна гнучкість для вибору відповідних повторних виразів кожної зі змінних окремо від інших. Зокрема, це не тільки використання журналу, кореня та зворотного зв'язку, це досить поширене явище. Принцип полягає в тому, що (як правило) немає нічого особливого в тому, як спочатку дані виражаються, тому ви повинні дозволити даним запропонувати повторні вирази, що призводять до ефективних, точних, корисних та (якщо можливо) теоретично обгрунтованих моделей.

Гістограми - які відображають одноманітні розподіли - часто натякають на початкову трансформацію, але не є диспозитивною. Супроводжуйте їх матрицями розсіювання, щоб ви могли вивчити взаємозв'язки між усіма змінними.

$\log(x + c)$ $c$ $x$ $\log(x)$ $x$ $z_x$ $x$ $x = 0$ і дорівнює 0. Ці умови вносять суму

β \log (x) + β_{0} z_{x}

$\beta \log(x) + \beta_0 z_x$

$x \gt 0$ $z_x = 0$ $\beta \log(x)$ $x = 0$ $\log(x)$ $z_x = 1$ $\beta_0$ $\beta_0$ $x = 0$ $\beta$ $\log(x)$

— дзижчати
джерело

Дуже корисний опис, дякую за вказівки та деталі мого підпитання.

— Брендон Бертелсен

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002) рекомендує закріпити мінімальне значення в розподілі рівно 1,0. pareonline.net/getvn.asp?v=8&n=6

— Кріс

1

$1$

1

$1$

В одному з моїх наборів даних, над якими я працюю, я помітив, якби я змістив залежну змінну відповіді на якір на 1 і застосував перетворення коксу кокса для усунення перекосу, отримана трансформація була послаблена, що призвело до вашої критики. ;)

— Кріс

β_{0}

$\beta_0$

z_{x}

$z_x$