Мій опис відстані махаланобіса внизу до верхнього пояснення відстані махаланобіса? включає два ключові результати:
За визначенням, воно не змінюється, коли регресори зміщуються рівномірно.
Відстань махаланобіса в квадраті між векторами x і y задається через D2(x,y)=(x−y)′Σ−1(x−y)
де Σ - коваріантність даних.
(1) дозволяє припустити, що засоби регресорів усі дорівнюють нулю. Залишається обчислити . Однак, щоб твердження було правдивим, нам потрібно додати ще одне припущення:hi
Модель повинна містити перехоплення.
Дозволяючи це, нехай буде регресорів і даних, записуючи значення регресора для спостереження як . Нехай вектор стовпців цих значень для регресора записується і вектор рядків цих значень для спостереження записується . Тоді матриця моделі єk≥0njixijнjх, jкiхi
Х= ⎛⎝⎜⎜⎜⎜11⋮1х11х21⋮хn 1⋯⋯⋮⋯х1 кх2 к⋮хn k⎞⎠⎟⎟⎟⎟
і, за визначенням, матриця капелюхів є
Н= X( X'Х)- 1Х',
звідки вхід по діагоналіi
годi= годя i= ( 1 ; хi) ( X'Х)- 1( 1 ; хi)'.(1)
Немає нічого, крім опрацювати цю центральну матрицю, обернену - але в силу першого ключового результату це легко, особливо коли ми пишемо його у вигляді блок-матриці:
Х'Х= n ( 100'С)
де і0 =(0,0,…,0 )'
Сj k= 1н∑i = 1нхi jхя к= n - 1нКов( хj, хк) = n - 1нΣj k.
(Я написав для матриці зразкової коваріації регресорів.) Оскільки це діагональ блоку, його обернення можна знайти просто шляхом перевертання блоків:Σ
( X'Х)- 1= 1н( 100'С- 1) = ( 1н00'1n - 1Σ- 1) .
З визначення отримаємо( 1 )
годi= ( 1 ; хi) ( 1н00'1n - 1Σ- 1) (1; хi)'= 1н+ 1n - 1хiΣ- 1х'i= 1н+ 1n - 1D2( хi, 0 ) .
Розв’язання для квадратичної довжини даєD2i= D2( хi, 0 )
D2i= ( n - 1 ) ( годi- 1н) ,
QED .
Озираючись назад, можна простежити адитивний член в присутності перехоплення, який ввів стовпець одиниць в модель матриці . Мультипликативний термін з'явився після того, як припускати, що відстань махаланобіса буде обчислена за допомогою вибіркової оцінки коваріації (яка ділить суми квадратів і продуктів на ), а не матриці коваріації даних (яка ділить суму квадратів і продукції по ).1 / нХn - 1n - 1н
Основна цінність цього аналізу полягає в наданні геометричної інтерпретації важелю, який вимірює, наскільки зміна одиниці у відповіді під час спостереження змінить пристосоване значення при цьому спостереженні: спостереження з високим важелем знаходяться на великих відстанях махаланобіса від центрального центру регресорів, саме як механічно ефективний важіль працює на великій відстані від його опорної точки.i
R код, щоб показати, що відношення справді має місце:
x <- mtcars
# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))
# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)
# Compare.
all.equal(M, D2) # TRUE
print(signif(cbind(M, D2), 3))