Я намагаюся зрозуміти, як працюють функції впливу. Чи може хтось пояснити в контексті простої регресії OLS
де я хочу функцію впливу для .
Я намагаюся зрозуміти, як працюють функції впливу. Чи може хтось пояснити в контексті простої регресії OLS
де я хочу функцію впливу для .
Відповіді:
Функції впливу - це в основному аналітичний інструмент, який можна використовувати для оцінки ефекту (або "впливу") вилучення спостереження на значення статистики без необхідності повторного обчислення цієї статистики . Вони також можуть бути використані для створення асимптотичних оцінок дисперсії. Якщо вплив дорівнює то асимптотична дисперсія дорівнює .I 2
Те, як я розумію функції впливу, полягає в наступному. У вас є якийсь теоретичний CDF, позначений . Для простого OLS у вас є
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Зауважимо, що тому отримаємо: S [ F ( i ) ( z , ζ ) ] ≈ S [ F ( z ) ] + ζ [ ∂ S [ F ( i ) ( z , ζ ) ]
Часткова похідна тут називається функцією впливу. Таким чином, це являє собою приблизну корекцію "першого порядку", яка повинна бути внесена до статистики завдяки видаленню спостереження "i". Зауважте, що в регресії залишок не переходить до нуля асимптотично, так що це наближення до тих змін, які ви можете насправді отримати. Тепер запишіть як:
Таким чином, бета - це функція двох статистичних даних: дисперсії X та коваріації між X та Y. Ці дві статистичні дані мають уявлення щодо CDF як:
v a r ( X ) = ∫ ( X - μ x ( F ) ) 2 d F μ x = ∫ x d F
Для видалення i-го спостереження замінимо в обох інтегралах, щоб дати:
ігноруючи умови і спрощуючи, отримуємо: Аналогічно для коваріації
Отже, тепер ми можемо виразити як функцію . Це є:
Тепер ми можемо використовувати серію Тейлора:
Спрощення цього дає:
І підключаючи значення статистики , , та ми отримуємо:
І ви можете бачити, як ефект від вилучення одного спостереження можна наблизити без необхідності перевстановлення моделі. Ви також можете бачити, як х, рівний середньому, не впливає на нахил лінії . Подумайте над цим і побачите, як це має сенс. Ви також можете записати це більш лаконічно з точки зору стандартизованих значень (аналогічно y):
Ось надзвичайно загальний спосіб розповісти про функції впливу регресії. Спочатку я торкнуся одного із способів представлення функцій впливу:
Припустимо, - розподіл на . Забруднена функція розподілу , може бути визначена як: де є ймовірнісної мірою на , яка присвоює ймовірність 1 і 0 для всіх інших елементів .
З цього можна досить легко визначити функцію впливу:
Вплив функції з на , визначається наступним чином:
Звідси можна побачити, що функцією впливу є похідна Gateaux від у у напрямку . Це робить інтерпретацію функцій впливу (для мене) дещо зрозумілішою: функція впливу повідомляє вам про вплив, який певне спостереження має на оцінювач.
Оцінка OLS - це рішення проблеми:
Уявіть, забруднений розподіл, який надає трохи більше ваги спостереженню :
Прийняття умов першого замовлення:
Оскільки функція впливу - це лише похідна Гато, то зараз ми можемо сказати:
В , , так:
Кінцевим аналогом вибірки цієї функції впливу є:
Взагалі, мені здається, що ця рамка (робота з функціями впливу як похідні Гато) легше мати справу.