Якщо ви не можете зробити це ортогонально, зробіть це сирим (поліноміальна регресія)


11

Виконуючи поліноміальну регресію для на , люди іноді використовують неочищені многочлени, іноді ортогональні многочлени. Але коли вони використовують те, що здається абсолютно довільним.XYX

Тут і тут використовуються сирі многочлени. Але тут і тут ортогональні многочлени, здається, дають правильні результати. Що, як, чому ?!

На відміну від цього, коли ви дізнаєтесь про поліноміальну регресію з підручника (наприклад, ISLR ), що навіть не згадується про сирі чи ортогональні многочлени - дається лише модель, яку слід встановити.

То коли нам треба використовувати що?
І чому окремі p-значення для , і т. Д. Сильно відрізняються між цими двома значеннями?X 2XX2


1
Вам слід задуматися про те, які p-значення відрізняються, коли ви підходите до однієї і тієї ж моделі до одних і тих же даних, використовуючи необроблені та ортогональні поліноми та їх інтерпретацію. Що з прогнозами моделі?
Scortchi

@Scortchi Я додав відповідну інформацію до свого запитання.
l7ll7

4
Ще одна вагома причина використання ортогональних многочленів - чисельна стійкість; асоційована матриця проектування для введення в мономічну основу може бути досить поганою умовою для високого ступеня пристосування, оскільки мономени вищого порядку "дуже майже лінійно залежні" (концепція, яку можна зробити більш математично точною), в той час як матриця проектування для ортогональних многочленів трохи краще поводитись. Я обговорював випадок еквідистантно абсциси (Gram) тут , але угода схожа в НЕ еквідистантно випадку.
JM не є статистиком

(Тим не менш, не слід підходити до поліномів високого ступеня без поважних причин для цього.)
JM не є статистиком

Відповіді:


7

Змінні і X 2 не є лінійно незалежними. Таким чином , навіть якщо не існує квадратичний ефект, додавання X 2 моделі буде змінювати оціночну ефект X .XХ2Х2Х

Давайте розглянемо дуже просте моделювання.

> x <- runif(1e3)
> y <- x + rnorm(length(x))
> summary(lm(y~x))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.03486    0.06233  -0.559    0.576    
x            1.05843    0.10755   9.841   <2e-16 ***

Тепер з квадратичним терміном в моделі підходить.

> summary(lm(y~x+I(x^2)))

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  0.03275    0.09528   0.344    0.731
x            0.65742    0.44068   1.492    0.136
I(x^2)       0.39914    0.42537   0.938    0.348

Звичайно, тест омнібусів все ще важливий, але я думаю, що результат, який ми шукаємо, не цей. Рішення полягає у використанні ортогональних многочленів.

 > summary(lm(y~poly(x,2)))

 Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.49744    0.03098  16.059   <2e-16 ***
poly(x, 2)1  9.63943    0.97954   9.841   <2e-16 ***
poly(x, 2)2  0.91916    0.97954   0.938    0.348    

Зауважимо, що коефіцієнти xв першій моделі та poly(x,2)1в другій моделі не рівні, і навіть перехоплення різні. Це тому, що polyдоставляє ортонормальні вектори, які також є ортогональними вектору rep(1, length(x)). Так poly(x,2)1не є, xа швидше (x -mean(x))/sqrt(sum((x-mean(x))**2))...

Важливим моментом є те, що тести Вальда в цій останній моделі є незалежними. Ви можете використовувати ортогональні поліноми, щоб вирішити, до якого ступеня ви хочете піти, просто подивившись на тест Уолда: тут ви вирішили зберегти але не X 2 . Звичайно, ви знайдете ту саму модель, порівнюючи дві перші вмонтовані моделі, але це простіший спосіб - якщо ви вважаєте, що піднімаєтесь на більш високі ступені, це дійсно набагато простіше.ХХ2

Після того, як ви вирішили, які умови зберігати, можливо, ви захочете повернутися до необроблених поліномів і X 2 для інтерпретаційності або прогнозування.ХХ2


+1 Нарешті чітка відповідь! Дякую! Перш ніж я прийняв, чи можете ви мені сказати, чи є інші статистичні дані, такі як R ^ 2 або F-статистика, що мені краще прочитати резюме ортогональних сюжетів, ніж необроблений? Крім побудови змінних, чи підходить використання сирих поліномів для всього іншого у цьому сценарії?
l7ll7

І коли у мене є декілька прогнозів, чи відповідає те саме?
l7ll7

Як би ви "використовували ортогональні многочлени, щоб вирішити, хочете ви включити квадратичний термін чи ні"?
Scortchi

1
Справа в тому, що тест ефекту найвищого порядку, квадратичний у цьому випадку, є тим самим, чи використовуєте ви сирий або ортогональний многочлени. Так навіщо турбуватися з ортогональними многочленами?
Scortchi

4
Ну, звичайно, ви просто не повинні робити ці граничні тести в цій моделі; вам слід повторно підходити після відмови від ефекту найвищого порядку. Ортогональні поліноми позбавляють вас від клопоту, дозволяючи просту процедуру зменшення - можливо, ви могли б проілюструвати кубічним терміном.
Scortchi

3

Щоб дати наївну оцінку ситуації:

{pн}н=1{p~}н=1L2([а,б])

L2([а,б])уL2([а,б])θнθ~нRн=1,2,L2

н=1θ~нp~н=у=н=1θнpн.

к<

{pн}н=1к
{p~}н=1к,
L2([а,б])

{p~}н=1{pн}н=1у{p}н=1ккL2([а,б])

p

Отже, в плані прогнозування різниці немає (в даному випадку).

vаr(θ~^)=Яσ²


Природне питання виникає за наявності найкращої усіченої бази. Однак відповідь на питання не є простою і однозначною і залежить, наприклад, від визначення слова "найкраще", тобто того, що ви намагаєтесь архівувати.


1
(+1) Немає різниці в плані прогнозування; & можна сказати, що немає різниці з точки зору будь-якого змістовного висновку.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.