Чи має значення порядок пояснювальних змінних при обчисленні їх коефіцієнтів регресії?


24

Спочатку я думав, що порядок не має значення, але потім я прочитав про процес ортогоналізації грам-шмідта для обчислення кількох коефіцієнтів регресії, а тепер у мене є другі думки.

Відповідно до процесу грам-шмідта, чим пізніше пояснювальна змінна індексується серед інших змінних, тим менший її залишковий вектор, оскільки від неї віднімаються залишкові вектори попередніх змінних. В результаті коефіцієнт регресії пояснювальної змінної також менший.

Якщо це правда, то залишковий вектор відповідної змінної був би більшим, якби він був індексований раніше, оскільки з нього буде віднято менше залишкових векторів. Це означає, що і коефіцієнт регресії був би більшим.

Гаразд, тому мене попросили уточнити своє питання. Тож я розмістив скріншоти з тексту, який мене в першу чергу заплутав. Гаразд, ось іде.

Я розумію, що для розрахунку коефіцієнтів регресії є щонайменше два варіанти. Перший варіант позначений (3.6) на скріншоті нижче.

Перший спосіб

Ось другий варіант (мені довелося використовувати кілька скріншотів).

Другий спосіб

введіть тут опис зображення введіть тут опис зображення

Якщо я щось неправильно читаю (що, безумовно, можливо), здається, що порядок має значення у другому варіанті. Це має значення в першому варіанті? Чому або чому ні? Або моє посилання настільки заплутане, що це навіть не дійсне питання? Також, чи все це якось пов’язано з сумою квадратів І типу та сумою квадратів ІІ типу?

Дякую заздалегідь, я так розгублений!


1
Не могли б ви окреслити точну процедуру обчислення коефіцієнтів? З того, що мені відомо про ортогоналізацію грам-шмідта та про те, як це можна застосувати до проблеми регресії, я можу припустити, що за допомогою gs процедури ви можете пристосуватись до регресії, але не до вихідних коефіцієнтів. Зауважте, що регресія підходить - це проекція на простір стовпців. Якщо ви ортогоналізуєте стовпчики, ви отримаєте ортогональну основу простору, що охоплює стовпці, отже, придатність буде лінійною комбінацією цієї бази, а також лінійною комбінацією оригінальних стовпців. Це буде те саме ...
mpiktas

але коефіцієнти будуть різними. Це цілком нормально.
mpiktas

Я думаю, що я розгублений, тому що думав, що читав у "Елементах статистичного навчання", що коефіцієнти, обчислені за допомогою грам-шмідт-процесу, будуть такими ж, як і обчислені за допомогою традиційного процесу: B = (X'X) ^ - 1 X'y.
Ryan Zotti

Ось уривок із книги, що розповідає про процедуру: "Ми можемо переглянути оцінку [коефіцієнтів] як результат двох застосувань простої регресії. Етапи: 1. регрес x на 1 для отримання залишкового z = x - x ̄1; 2. регресуйте y на залишковий z, щоб отримати коефіцієнт βˆ1. Цей рецепт узагальнює випадок p входів, як показано в алгоритмі 3.1 Зауважте, що входи z0,., zj − 1 на етапі 2 є ортогональними, отже, обчислені прості коефіцієнти регресії насправді є також множинними коефіцієнтами регресії ".
Райан Зотті

Це стає трохи безладним, коли я копіюю та вставляю сюди розділ коментарів, тому, мабуть, найкраще просто переглянути джерело безпосередньо. Це сторінки з 53 по 54 "Елементи статистичного навчання", які вільно доступні для завантаження на веб-сайті Стенфорда: www-stat.stanford.edu/~tibs/ElemStatLearn .
Ryan Zotti

Відповіді:


22

Я вважаю, що плутанина може виникнути в чомусь більш простому, але це дає хорошу можливість переглянути деякі пов'язані питання.

Зверніть увагу , що текст НЕ стверджує , що всі з коефіцієнтів регресії р я можна обчислити з допомогою послідовних залишкових векторів , як β я ? =Уβ^i а точніше, що лишеостанній,

β^i=?y,zizi2,
, можна розрахувати таким чином!β^p

Послідовна схема ортогоналізації (форма ортогоналізації Грама - Шмідта) (майже) виробляє пару матриць і G таких, що X = Z GZG

X=ZG,
Zn×pG=(gij)p×pZG

XRn×ppnβ^

XTXβ^=XTy.

X=ZGZTZ=I

GTGβ^=GTZTy,
Gβ^=ZTy.

Ggpp

gppβ^p=y,zp.
gpp=zpzi

Щоб знайти всі коефіцієнти регресії, потрібно зробити простий крок заміни, щоб вирішити для людиниβ^i(p1)

gp1,p1β^p1+gp1,pβ^p=zp1,y,
β^p1=gp1,p11zp1,ygp1,p11gp1,pβ^p.
giiβ^i

XX(r)rβ^rβ^ryxr

Загальні QR-розклади

X

X=QR,
Xβ^
RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^p

Xy^


6

βjβp - тому я набрав рішення. Сподіваюся, що це корисний.

Вправа 3.4 в ESL

X .

Рішення

X

X=ZΓ,
ZzjΓγij=zi,xjzi2
xj=zj+k=0j1γkjzk.

Тепер, , ми можемо записати X = Q RQRX=QRQRQ=ZD1R=DΓDDjj=zj

Тепер, за визначенням р , ми маємо ( X Tβ^

(XTX)β^=XTy.
QR
(RTQT)(QR)β^=RTQTyRβ^=QTy

R відповідно до наших попередніх результатів. Тепер зворотна підстановка, можна отримати послідовність коефіцієнтів регресіїрJ. В якості прикладу, для обчислення& betaр-1, ми маємоR

Rppβ^p=qp,yzpβ^p=zp1zp,yβ^p=zp,yzp2
β^jβ^p1
Rp1,p1β^p1+Rp1,pβ^p=qp1,yzp1β^p1+zp1γp1,pβ^p=zp11zp1,y
β^p1βj

3

Чому б не спробувати і порівняти? Встановіть набір коефіцієнтів регресії, потім змініть порядок і знову їх встановіть і перевірте, чи вони відрізняються (крім можливої ​​помилки округлення).

Як вказує @mpiktas, не зовсім зрозуміло, що ти робиш.

B(xx)B=(xy)(xx)

x1x2x1yx2yx1x2yx1x1x2


Я думаю, ваш останній абзац, мабуть, найближчий до джерела моєї плутанини - GS робить порядок важливим. Це те, що я думав. Я все ще трохи розгублений, тому що книга, яку я читаю, називається: "Елементи статистичного навчання" (видання в Стенфорді, яке є у вільному доступі: www-stat.stanford.edu/~tibs/ElemStatLearn ), здається, припускають, що GS еквівалентний стандартному підходу для обчислення коефіцієнтів; тобто B = (X'X) ^ - 1 X'y.
Ryan Zotti

І частина того, що ви говорите, мене теж трохи бентежить: "Я бачу, як за допомогою GS вирішувати для B у рівнянні найменших квадратів (x′x) ^ - 1 B = (x′y). Але тоді ви б робили GS на матриці (x′x), а не на вихідних даних. " Я думав, що матриця x'x містить оригінальні дані? ... Принаймні, так говорять Елементи статистичного навчання. Він говорить, що x у x'x - це матриця N by p, де N - кількість входів (спостережень), а p - кількість вимірів.
Ryan Zotti

Якщо GS не є стандартною процедурою обчислення коефіцієнтів, то як колінеарність зазвичай трактується? Яким чином надмірність (колінеарність) зазвичай розподіляється серед х? Чи не колінеарність традиційно робить коефіцієнти нестабільними? Тоді чи не це може припустити, що процес GS - це стандартний процес? Оскільки процес GS також робить коефіцієнти нестабільними - менший залишковий вектор робить коефіцієнт нестабільним.
Ryan Zotti

Принаймні, так сказано в тексті: "Якщо xp сильно корелює з деякими іншими xk, залишковий вектор zp буде близький до нуля, а з (3.28) коефіцієнт βˆp буде дуже нестабільним".
Ryan Zotti

2
Зауважте, що GS - це форма розкладання QR.
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.