Доведіть зв’язок між дистанцією махаланобіса та важелем?


12

Я бачив формули у Вікіпедії. які стосуються відстані махаланобісу та важеля:

Відстань махаланобіса тісно пов'язана зі статистикою важеля, , але має різну шкалу:h

D2=(N1)(h1N).

У пов'язаній статті Вікіпедія описує h у цих термінах:

У моделі лінійної регресії, оцінка важелів для блоку даних визначаються як: діагонального елемента шолома матриця Н = Х (X ^ {\ top} X) ^ {- 1} X ^ {\ верх} , де ^ {\ верх} позначає матрицю транспозиції.ith

hii=(H)ii,
ithН=Х(ХХ)-1Х

Я ніде не можу знайти доказ. Я намагався почати з визначень, але не можу досягти жодного прогресу. Хтось може дати якусь підказку?

Відповіді:


11

Мій опис відстані махаланобіса внизу до верхнього пояснення відстані махаланобіса? включає два ключові результати:

  1. За визначенням, воно не змінюється, коли регресори зміщуються рівномірно.

  2. Відстань махаланобіса в квадраті між векторами x і y задається через

    D2(x,y)=(xy)Σ1(xy)
    де Σ - коваріантність даних.

(1) дозволяє припустити, що засоби регресорів усі дорівнюють нулю. Залишається обчислити . Однак, щоб твердження було правдивим, нам потрібно додати ще одне припущення:hi

Модель повинна містити перехоплення.

Дозволяючи це, нехай буде регресорів і даних, записуючи значення регресора для спостереження як . Нехай вектор стовпців цих значень для регресора записується і вектор рядків цих значень для спостереження записується . Тоді матриця моделі єk0njixijнjх,jкiхi

Х=(1х11х1к1х21х2к1хн1хнк)

і, за визначенням, матриця капелюхів є

Н=Х(Х'Х)-1Х',

звідки вхід по діагоналіi

(1)годi=годii=(1;хi)(Х'Х)-1(1;хi)'.

Немає нічого, крім опрацювати цю центральну матрицю, обернену - але в силу першого ключового результату це легко, особливо коли ми пишемо його у вигляді блок-матриці:

Х'Х=н(10'0С)

де і0=(0,0,,0)'

Сjк=1нi=1нхijхiк=н-1нКов(хj,хк)=н-1нΣjк.

(Я написав для матриці зразкової коваріації регресорів.) Оскільки це діагональ блоку, його обернення можна знайти просто шляхом перевертання блоків:Σ

(Х'Х)-1=1н(10'0С-1)=(1н0'01н-1Σ-1).

З визначення отримаємо(1)

годi=(1;хi)(1н0'01н-1Σ-1)(1;хi)'=1н+1н-1хiΣ-1хi'=1н+1н-1D2(хi,0).

Розв’язання для квадратичної довжини даєDi2=D2(хi,0)

Di2=(н-1)(годi-1н),

QED .

Озираючись назад, можна простежити адитивний член в присутності перехоплення, який ввів стовпець одиниць в модель матриці . Мультипликативний термін з'явився після того, як припускати, що відстань махаланобіса буде обчислена за допомогою вибіркової оцінки коваріації (яка ділить суми квадратів і продуктів на ), а не матриці коваріації даних (яка ділить суму квадратів і продукції по ).1/нХн-1н-1н


Основна цінність цього аналізу полягає в наданні геометричної інтерпретації важелю, який вимірює, наскільки зміна одиниці у відповіді під час спостереження змінить пристосоване значення при цьому спостереженні: спостереження з високим важелем знаходяться на великих відстанях махаланобіса від центрального центру регресорів, саме як механічно ефективний важіль працює на великій відстані від його опорної точки.i


R код, щоб показати, що відношення справді має місце:

x <- mtcars

# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))

# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)

# Compare.
all.equal(M, D2)               # TRUE
print(signif(cbind(M, D2), 3))

Відмінна відповідь, дуже добре округлена суворістю та інтуїцією. Ура!
cgrudz

Дякую за пост @whuber! Для перевірки здоровості тут є R-код, який показує, що відношення справді виконується: x <- назви рядків mtcars (x) <- NULL-назви (x) <- NULL n <- nrow (x) h <- hat (x, T) mahalanobis (x, colMeans (x), cov (x)) (n-1) * (h - 1 / n) all.equal (mahalanobis (x, colMeans (x), cov (x)), (n-1 ) * (год - 1 / н))
Тал Галілі

1
@Tal Я не думав, що мені потрібна перевірка обґрунтованості - але дякую за код. :-) Я вніс зміни, щоб трохи уточнити його та його вихід.
whuber

1
@whuber, я хотів приклад, який показує, як зробити так, щоб рівноправність працювала (даючи зрозуміти мені, що я зрозумів, що припущення є правильними). Я також продовжив відповідний запис у Вікі: en.wikipedia.org/wiki/… (
Тал Галілі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.