Функції впливу та OLS


15

Я намагаюся зрозуміти, як працюють функції впливу. Чи може хтось пояснити в контексті простої регресії OLS

yi=α+βxi+εi

де я хочу функцію впливу для .β


2
Тут ще немає конкретного питання: чи хочете ви дізнатися, як обчислюється функція впливу? Ви хочете конкретного емпіричного прикладу? Евристичне пояснення, що це означає?
whuber

1
Якщо ви подивитесь на папір Франка Кричлі 1986 року, "він впливає на функції основних компонентів" (не можу згадати точну назву статті). Він визначає функцію впливу для звичайної регресії тут (що може чи не може довести мою відповідь неправильною).
ймовірністьлогічний

Відповіді:


15

Функції впливу - це в основному аналітичний інструмент, який можна використовувати для оцінки ефекту (або "впливу") вилучення спостереження на значення статистики без необхідності повторного обчислення цієї статистики . Вони також можуть бути використані для створення асимптотичних оцінок дисперсії. Якщо вплив дорівнює то асимптотична дисперсія дорівнює .I 2II2n

Те, як я розумію функції впливу, полягає в наступному. У вас є якийсь теоретичний CDF, позначений . Для простого OLS у вас єFi(y)=Pr(Yi<yi)

Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Де стандартний нормальний CDF, а - дисперсія помилок. Тепер ви можете показати, що будь-яка статистика буде функцією цього CDF, звідси і позначення (тобто деяка функція ). Тепер припустимо, що ми змінимо функцію на "трохи", на Де , і . Таким чином, являє собою CDF даних із видаленою "i" точкою даних. Ми можемо зробити тейлорові серіїΦ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) F(i)F(i)(z)ζ=0ζ=1n1F(i)F(i)(z) про . Це дає:ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Зауважимо, що тому отримаємо: S [ F ( i ) ( z , ζ ) ] S [ F ( z ) ] + ζ [ S [ F ( i ) ( z , ζ ) ]F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Часткова похідна тут називається функцією впливу. Таким чином, це являє собою приблизну корекцію "першого порядку", яка повинна бути внесена до статистики завдяки видаленню спостереження "i". Зауважте, що в регресії залишок не переходить до нуля асимптотично, так що це наближення до тих змін, які ви можете насправді отримати. Тепер запишіть як:β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Таким чином, бета - це функція двох статистичних даних: дисперсії X та коваріації між X та Y. Ці дві статистичні дані мають уявлення щодо CDF як:

v a r ( X ) = ( X - μ x ( F ) ) 2 d F μ x = x d F

cov(X,Y)=(Xμx(F))(Yμy(F))dF
і де
var(X)=(Xμx(F))2dF
мкх=хгЖ

Для видалення i-го спостереження замінимо в обох інтегралах, щоб дати:ЖЖ(i)=(1+ζ)Ж-ζδ(i)

мкх(i)=хг[(1+ζ)Ж-ζδ(i)]=мкх-ζ(хi-мкх)
Vаr(Х)(i)=(Х-мкх(i))2гЖ(i)=(Х-мкх+ζ(хi-мкх))2г[(1+ζ)Ж-ζδ(i)]

ігноруючи умови і спрощуючи, отримуємо: Аналогічно для коваріації ζ2

Vаr(Х)(i)Vаr(Х)-ζ[(хi-мкх)2-Vаr(Х)]
Соv(Х,Y)(i)Соv(Х,Y)-ζ[(хi-мкх)(уi-мку)-Соv(Х,Y)]

Отже, тепер ми можемо виразити як функцію . Це є:β(i)ζ

β(i)(ζ)Соv(Х,Y)-ζ[(хi-мкх)(уi-мку)-Соv(Х,Y)]Vаr(Х)-ζ[(хi-мкх)2-Vаr(Х)]

Тепер ми можемо використовувати серію Тейлора:

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

Спрощення цього дає:

β(i)(ζ)β-ζ[(хi-мкх)(уi-мку)Vаr(Х)-β(хi-мкх)2Vаr(Х)]

І підключаючи значення статистики , , та ми отримуємо:мкумкхvаr(Х)ζ=1н-1

β(i)β-хi-х¯н-1[уi-у¯1нj=1н(хj-х¯)2-βхi-х¯1нj=1н(хj-х¯)2]

І ви можете бачити, як ефект від вилучення одного спостереження можна наблизити без необхідності перевстановлення моделі. Ви також можете бачити, як х, рівний середньому, не впливає на нахил лінії . Подумайте над цим і побачите, як це має сенс. Ви також можете записати це більш лаконічно з точки зору стандартизованих значень (аналогічно y):х~=х-х¯сх

β(i)β-хi~н-1[уi~сусх-хi~β]

Отже, історія про вплив додаткової точки даних? Я більше звик до імпульсної реакції для даних часових рядів, в статистичному контексті весь вплив описувався б граничним ефектом або (кращим вибором) бета-коефіцієнтом від стандартизованої регресії. Ну, мені дійсно потрібно більше контексту, щоб оцінити питання і відповісти, але цей приємний, я думаю (+1 ще не, але чекаю).
Дмитро Челов

@dmitrij - Це те, що малося на увазі (або що я зробив із посилання) - це про властивості статистики. Функції впливу є дещо більш загальними, ніж 1 точка даних - ви можете перезначити дельта-функцію як суму їх (так багато спостережень). Я б вважав це певною мірою "дешевим джекніфом" - тому що вам не потрібно переобладнання моделі.
ймовірністьлогічний

10

Ось надзвичайно загальний спосіб розповісти про функції впливу регресії. Спочатку я торкнуся одного із способів представлення функцій впливу:

Припустимо, - розподіл на . Забруднена функція розподілу , може бути визначена як: де є ймовірнісної мірою на , яка присвоює ймовірність 1 і 0 для всіх інших елементів .ЖΣЖϵ(х)

Жϵ(х)=(1-ϵ)Ж+ϵδх
δхΣ{х}Σ

З цього можна досить легко визначити функцію впливу:

Вплив функції з на , визначається наступним чином: θ^Жψi:ХΓ

ψθ^,Ж(х)=limϵ0θ^(Жϵ(х))-θ^(Ж)ϵ

Звідси можна побачити, що функцією впливу є похідна Gateaux від у у напрямку . Це робить інтерпретацію функцій впливу (для мене) дещо зрозумілішою: функція впливу повідомляє вам про вплив, який певне спостереження має на оцінювач.θ^Жδх

Оцінка OLS - це рішення проблеми:

θ^=аргхвθЕ[(Y-Хθ)Т(Y-Хθ)]

Уявіть, забруднений розподіл, який надає трохи більше ваги спостереженню :(х,у)

θ^ϵ=аргхвθ(1-ϵ)Е[(Y-Хθ)Т(Y-Хθ)]+ϵ(у-хθ)Т(у-хθ)

Прийняття умов першого замовлення:

{(1-ϵ)Е[ХТХ]+ϵхТх}θ^ϵ=(1-ϵ)Е[ХТY]+ϵхТу

Оскільки функція впливу - це лише похідна Гато, то зараз ми можемо сказати:

-(Е[ХТХ]+хТх)θ^ϵ+Е[ХТХ]ψθ(х,у)=-Е[ХТY]+хТу

В , , так:ϵ=0θ^ϵ=θ^=Е[ХТХ]-1Е[ХТY]

ψθ(х,у)=Е[ХТХ]-1хТ(у-хθ)

Кінцевим аналогом вибірки цієї функції впливу є:

ψθ(х,у)=(1NiХiТХi)-1хТ(у-хθ)

Взагалі, мені здається, що ця рамка (робота з функціями впливу як похідні Гато) легше мати справу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.