Поліноміальні контрасти для регресії

Я не можу зрозуміти використання поліноміальних контрастів для регресії. Зокрема, я маю на увазі кодування, яке використовується Rдля вираження інтервальної змінної (порядкової змінної з однаково розташованими рівнями), описаної на цій сторінці .

У прикладі цієї сторінки , якщо я правильно зрозумів, R підходить для моделі інтервальної змінної, повертаючи деякі коефіцієнти, які зважують її лінійну, квадратичну або кубічну тенденцію. Отже, вбудована модель повинна бути:

w r i t e = 52.7870 + 14.2587 X - 0.9680 X^{2} - 0.1554 X^{3},

${\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3,$

де $X$ має приймати значення $1$ , , або відповідно до різного рівня змінної інтервалу. $2$ $3$ $4$

Це правильно? І якщо так, то яка мета поліномічних контрастів?

r regression contrasts

— Пеппо
джерело

Ні, ці коефіцієнти призначені для ортогональних многочленних термінів: ви написали модель для необроблених многочленних термінів. Замініть

X

$X$ ,

X^{2}

$X^2$ і

X^{3}

$X^3$ значеннями

L

$L$ ,

Q

$Q$ і

C

$C$ відповідно (з таблиці огляду).

— Scortchi

Шановний @Scortchi, дякую за відповідь. Я здогадуюсь, щоб зрозуміти, що ти маєш на увазі, але тоді я чесно не зрозумів, як працюють ці ортогональні многочленні терміни. : P

— Піппо

Як відомо, те, що у вас є, не зовсім підходить модель. Вам або потрібна гігантська «шапка» над записом (або E [write]), що означає передбачуване значення запису або очікуване значення запису; або вам знадобиться "+ e" в кінці, щоб вказати залишки.

— gung - Відновіть Моніку

@Scortchi Що таке, або як ви можете знайти "таблицю пошуку"?

— Антоні Пареллада

@AntoniParellada: Це таблиця на сторінці, на яку посилається ОП: ats.ucla.edu/stat/r/library/contrast_coding.htm#ORTHOGONAL . І потрапив contr.polyу R.

— Scortchi

Просто для підбиття підсумків (і якщо гіперпосилання OP в майбутньому не вдасться), ми розглядаємо набір даних hsb2як такий:

   id     female race ses schtyp prog read write math science socst
1  70        0    4   1      1    1   57    52   41      47    57
2 121        1    4   2      1    3   68    59   53      63    61
...
199 118      1    4   2      1    1   55    62   58      58    61
200 137      1    4   3      1    2   63    65   65      53    61

які можна імпортувати сюди .

Перетворюємо змінну readв та впорядковану / порядкову змінну:

hsb2$readcat<-cut(hsb2$read, 4, ordered = TRUE)
(means = tapply(hsb2$write, hsb2$readcat, mean))
 (28,40]  (40,52]  (52,64]  (64,76] 
42.77273 49.97849 56.56364 61.83333

Тепер все готово , щоб просто запустити регулярний ANOVA - так, це R, і ми в основному мають безперервну залежну змінну, writeі пояснювальну змінну з декількома рівнями, readcat. В R ми можемо використовуватиlm(write ~ readcat, hsb2)

1. Генерування контрастної матриці:

Для упорядкованої змінної є чотири різних рівня readcat, тому у нас буде контрасти. $n-1=3$

table(hsb2$readcat)

(28,40] (40,52] (52,64] (64,76] 
     22      93      55      30

Спершу давайте підемо за гроші і подивимось на вбудовану функцію R:

contr.poly(4)
             .L   .Q         .C
[1,] -0.6708204  0.5 -0.2236068
[2,] -0.2236068 -0.5  0.6708204
[3,]  0.2236068 -0.5 -0.6708204
[4,]  0.6708204  0.5  0.2236068

Тепер давайте розберемо, що сталося під кришкою:

scores = 1:4  # 1 2 3 4 These are the four levels of the explanatory variable.
y = scores - mean(scores) # scores - 2.5

$y = \small [-1.5, -0.5, 0.5, 1.5]$

$\small \text{seq_len(n) - 1} = [0, 1, 2, 3]$

n = 4; X <- outer(y, seq_len(n) - 1, "^") # n = 4 in this case

$\small\begin{bmatrix} 1&-1.5&2.25&-3.375\\1&-0.5&0.25&-0.125\\1&0.5&0.25&0.125\\1&1.5&2.25&3.375 \end{bmatrix}$

Що там сталося? outer(a, b, "^")піднімає елементи aдо елементам b, таким чином , що перші результати стовпців з операцій, , , і ; другий стовпчик з , , і ; третій з $\small(-1.5)^0$ $\small(-0.5)^0$ $\small 0.5^0$ $\small 1.5^0$ $\small(-1.5)^1$ $\small(-0.5)^1$ $\small0.5^1$ $\small1.5^1$ $\small(-1.5)^2=2.25$ , , і ; і четвертий, , , і . $\small(-0.5)^2 = 0.25$ $\small0.5^2 = 0.25$ $\small1.5^2 = 2.25$ $\small(-1.5)^3=-3.375$ $\small(-0.5)^3=-0.125$ $\small0.5^3=0.125$ $\small1.5^3=3.375$

Далі робимо ортонормальне розкладання цієї матриці і беремо компактне подання Q ( ). Деякі внутрішні функції функцій, що використовуються в QR-факторизації в R, використані в цій публікації, далі пояснюються тут . $QR$ c_Q = qr(X)$qr

$\small\begin{bmatrix} -2&0&-2.5&0\\0.5&-2.236&0&-4.584\\0.5&0.447&2&0\\0.5&0.894&-0.9296&-1.342 \end{bmatrix}$

... з яких ми зберігаємо тільки діагональ ( z = c_Q * (row(c_Q) == col(c_Q))). Що лежить в діагоналі: Просто "нижній" запис частини розкладу Просто? ну ні ... Виходить, що діагональ верхньої трикутної матриці містить власні значення матриці! $\bf R$ $QR$

Далі ми називаємо таку функцію:, raw = qr.qy(qr(X), z)результат якої можна повторити "вручну" двома операціями: 1. Перетворення компактної форми , тобто в , перетворення, яке можна досягти за допомогою , і 2. Проведення множення матриці , як і в . $Q$ qr(X)$qr $Q$ Q = qr.Q(qr(X)) $Qz$ Q %*% z

Принципово, що множення на власні значення не змінює ортогональність складових векторів стовпців, але, враховуючи, що абсолютне значення власних значень з'являється у порядку зменшення вгорі зліва вниз праворуч, множення буде тенденцію до зменшення значення в поліноміальних стовпцях вищого порядку: $\bf Q$ $\bf R$ $Qz$

Matrix of Eigenvalues of R
     [,1]      [,2] [,3]      [,4]
[1,]   -2  0.000000    0  0.000000
[2,]    0 -2.236068    0  0.000000
[3,]    0  0.000000    2  0.000000
[4,]    0  0.000000    0 -1.341641

Порівняйте значення в більш пізніх векторів - стовпців (квадратичної і кубічної) до і після операцій факторізаціонних і незачеплених перших двох колонках. $QR$

Before QR factorization operations (orthogonal col. vec.)
     [,1] [,2] [,3]   [,4]
[1,]    1 -1.5 2.25 -3.375
[2,]    1 -0.5 0.25 -0.125
[3,]    1  0.5 0.25  0.125
[4,]    1  1.5 2.25  3.375


After QR operations (equally orthogonal col. vec.)
     [,1] [,2] [,3]   [,4]
[1,]    1 -1.5    1 -0.295
[2,]    1 -0.5   -1  0.885
[3,]    1  0.5   -1 -0.885
[4,]    1  1.5    1  0.295

Нарешті ми називаємо (Z <- sweep(raw, 2L, apply(raw, 2L, function(x) sqrt(sum(x^2))), "/", check.margin = FALSE))перетворення матриці rawна ортонормальні вектори:

Orthonormal vectors (orthonormal basis of R^4)
     [,1]       [,2] [,3]       [,4]
[1,]  0.5 -0.6708204  0.5 -0.2236068
[2,]  0.5 -0.2236068 -0.5  0.6708204
[3,]  0.5  0.2236068 -0.5 -0.6708204
[4,]  0.5  0.6708204  0.5  0.2236068

Ця функція просто "нормалізує" матрицю шляхом ділення ( "/") стовпців кожного елемента на . Таким чином, його можна розкласти в два етапи:, в результаті чого, це знаменники для кожного стовпця вде кожен елемент у стовпці ділиться на відповідне значення. $\small\sqrt{\sum_\text{col.} x_i^2}$ $(\text{i})$ apply(raw, 2, function(x)sqrt(sum(x^2)))2 2.236 2 1.341 $(\text{ii})$ $(\text{i})$

У цей момент вектори стовпців утворюють ортонормальну основу , поки ми не позбудемося першого стовпця, який буде перехопленням, і ми не відтворили результат : $\mathbb{R}^4$ contr.poly(4)

$\small\begin{bmatrix} -0.6708204&0.5&-0.2236068\\-0.2236068&-0.5&0.6708204\\0.2236068&-0.5&-0.6708204\\0.6708204&0.5&0.2236068 \end{bmatrix}$

Стовпці цієї матриці є ортонормальними , як це можна показати (sum(Z[,3]^2))^(1/4) = 1і z[,3]%*%z[,4] = 0, наприклад (до речі, те саме стосується рядків). І кожен стовпець є результатом підняття початкових до ї, ї та ї потужності відповідно - тобто лінійної, квадратичної та кубічної . $\text{scores - mean}$ $1$ $2$ $3$

2. Які контрасти (стовпці) суттєво сприяють поясненню відмінностей між рівнями пояснювальної змінної?

Ми можемо просто запустити ANOVA і подивитися підсумок ...

summary(lm(write ~ readcat, hsb2))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  52.7870     0.6339  83.268   <2e-16 ***
readcat.L    14.2587     1.4841   9.607   <2e-16 ***
readcat.Q    -0.9680     1.2679  -0.764    0.446    
readcat.C    -0.1554     1.0062  -0.154    0.877

... щоб побачити, що існує лінійний ефект readcatна write, так що вихідні значення (у третьому фрагменті коду на початку публікації) можна відтворити як:

coeff = coefficients(lm(write ~ readcat, hsb2))
C = contr.poly(4)
(recovered = c(coeff %*% c(1, C[1,]),
               coeff %*% c(1, C[2,]),
               coeff %*% c(1, C[3,]),
               coeff %*% c(1, C[4,])))
[1] 42.77273 49.97849 56.56364 61.83333

... або ...

... або набагато краще ...

Будучи ортогональних контрастів сума їх компонентів додає до нуля для константами, а скалярний добуток будь-яких двох з них дорівнює нулю. Якби ми могли їх уявити, вони виглядали б приблизно так: $\displaystyle \sum_{i=1}^t a_i = 0$ $a_1,\cdots,a_t$

$X^0, X^1, \cdots. X^n$

Графічно це зрозуміти набагато простіше. Порівняйте фактичні засоби за групами у великих квадратних чорних блоках з передбачуваними значеннями та подивіться, чому оптимальне прямолінійне наближення з мінімальним внеском квадратичних та кубічних многочленів (з кривими, лише апроксимованими з льосом):

Якби тільки для ефекту коефіцієнти ANOVA були настільки ж великими для лінійного контрасту для інших наближень (квадратичного та кубічного), наступний безглуздий графік більш чітко зображає поліноміальні ділянки кожного "внеску":

Код тут .

— Антоні Пареллада
джерело

+1 Вау Чи можна цю відповідь (я до цього часу не читав її до кінця) розглядати як відповідь на моє давнє, забуте запитання: stats.stackexchange.com/q/63639/3277 ?

— ttnphns

(+1) @ttnphns: Імовірно, він би там навіть краще вписався.

— Scortchi

Лише підказка: ви можете прокоментувати мене там із посиланням на це; або надіслати відповідь там - яку я, швидше за все, прийму.

— ttnphns

@ttnphns та @Scortchi Дякую! Я витратив досить багато часу, намагаючись зрозуміти ці поняття, і не очікував особливої реакції. Тож це дуже позитивний сюрприз. Я думаю, що є якісь зморшки, які слід виправити у поясненні qr.qy()функції, але я обов'язково спробую зрозуміти, чи зможу я сказати щось мінімально узгоджене у вашому питанні, як тільки у мене з’явиться певний час.

— Антоні Пареллада

@Elvis Я намагався вибрати хороший підсумкове речення і помістити його десь у дописі. Я думаю, що це хороший момент і вимагає приємного математичного пояснення, але, можливо, в цьому моменті буде занадто багато детального розробки.

— Антоні Пареллада

Я буду використовувати ваш приклад, щоб пояснити, як це працює. Використання поліноміальних контрастів з чотирма групами дає наступне.

\begin{aligned} Е ш r i т е_{1} & = мк - 0,67 L + 0,5 Q - 0,22 С \\ Е ш r i т е_{2} & = мк - 0,22 L - 0,5 Q + 0,67 С \\ Е ш r i т е_{3} & = мк + 0,22 L - 0,5 Q - 0,67 С \\ Е ш r i т е_{4} & = мк + 0,67 L + 0,5 Q + 0,22 С \end{aligned}

$\begin{align} E\,write_1 &= \mu -0.67L + 0.5Q -0.22C\\ E\,write_2 &= \mu -0.22L -0.5Q + 0.67C\\ E\,write_3 &= \mu + 0.22L -0.5Q -0.67C\\ E\,write_4 &= \mu + 0.67L + 0.5Q + 0.22C \end{align}$

Where first equation works for the group of lowest reading scores and the fourth one for the group of best reading scores. we can compare these equations to the one given using normal linear regression (supposing $read_i$ is continous)

E w r i t e_{i} = μ + r e a d_{i} L + r е а г_{i}^{2} Q + r е а г_{i}^{3} С

$E\,write_i=\mu+read_iL + read_i^2Q+read_i^3C$

Зазвичай замість $L,Q,C$ ти мав би $\beta_1, \beta_2, \beta_3$ і написано на першій позиції. Але це написання нагадує те, з поліноміальними контрастами. Так цифри перед $L, Q, C$ насправді замість $read_i, read_i^2, read_i^3$ . Ви можете бачити ці коефіцієнти раніше $L$ раніше лінійна тенденція $Q$ квадратичний і раніше $C$ куб.

Тоді R оцінює параметри $\mu, L,Q,C$ і дає вам

\hat{мк} = 52,79, \hat{L} = 14.26, \hat{Q} = - 0,97, \hat{С} = - 0,16

$\widehat{\mu}=52.79, \widehat{L}=14.26, \widehat{Q}=−0.97, \widehat{C}=−0.16$ Де

\hat{μ} = \frac{1}{4} \sum_{i = 1}^{4} E w r i t e_{i}

$\widehat{\mu}=\frac{1}{4}\sum_{i=1}^4E\,write_i$ and estimated coefficients

\hat{μ}, \hat{L}, \hat{Q}, \hat{C}

$\widehat{\mu}, \widehat{L}, \widehat{Q}, \widehat{C}$ are something like estimates at normal linear regression. So from the output you can see if estimated coefficients are significantly different from zero, so you could anticipate some kind of linear, quadratic or cubic trend.

In that example is significantly non-zero only $\widehat{L}$ . So your conclusion could be: We see that the better scoring in writing depends linearly on reading score, but there is no significant quadratic or cubic effect.

— Fimba
джерело