Ось методика мінімізації суми квадратів у регресії, яка насправді має додатки до більш загальних налаштувань і яка мені здається корисною.
Спробуймо взагалі уникнути обчислення векторної матриці.
Припустимо, ми зацікавлені у мінімізації
де , та . Для простоти вважаємо, що і .
Е= ( y - X β)Т( у - X β)=∥y−Xβ∥22,
y∈RnX∈Rn×pβ∈Rpp≤nrank(X)=p
Для будь-якого , отримуємо
β^∈Rp
E=∥y−Xβ^+Xβ^−Xβ∥22=∥y−Xβ^∥22+∥X(β−β^)∥22−2(β−β^)TXT(y−Xβ^).
Якщо ми можемо вибрати (знайти!) Вектор такий, що останній термін з правого боку дорівнює нулю для кожного , тоді ми б це зробили, оскільки це означатиме, що .β^ βminβE≥∥y−Xβ^∥22
Але, для всіх якщо і лише тоді, коли і останнє рівняння є істинним, якщо і лише тоді, коли . Тож мінімізується, приймаючи .(β−β^)TXT(y−Xβ^)=0βXT(y−Xβ^)=0XTXβ^=XTyEβ^=(XTX)−1XTy
Хоча це може здатися "фокусом", щоб уникнути обчислення, воно насправді має більш широке застосування, і тут є якась цікава геометрія.
Одним із прикладів, коли ця методика робить виведення набагато простішим, ніж будь-який підхід до обчислення матриць-вектора, - це коли ми узагальнюємо до матричного випадку. Нехай , і . Припустимо, ми хочемо мінімізувати
на всій матриці параметрів . Тут - коваріаційна матриця.Y∈Rn×pX∈Rn×qB∈Rq×p
E=tr((Y−XB)Σ−1(Y−XB)T)
BΣ
Цілком аналогічний підхід до вищезазначеного швидко встановлює, що мінімум досягається, приймаючи
Тобто, в регресійній обстановці, де відповідь є вектором з коваріацією а спостереження незалежні, тоді оцінка OLS досягається шляхом виконання окремих лінійних регресій на компонентах відповіді.E
B^=(XTX)−1XTY.
Σp
smallmatrix, тому не намагався редагувати, оскільки звичайне рішення розбиття формули на кілька рядків тут не працювало б.