Значення відсікання відстані Кука

Я читав на відстані кухаря, щоб визначити людей, які сильно впливають на мою регресію. У первісному дослідженні Кука він говорить, що коефіцієнт скорочення 1 повинен бути порівнянним для визначення впливових факторів. Однак у різних інших дослідженнях використовується або як скорочення. $\frac{4}{n}$ $\frac{4}{n-k-1}$

У моєму дослідженні жоден із моїх залишків не має значення D вище 1. Однак якщо я використовую в якості відсікання , то існують різні дані бали, які вважаються впливовими. Я вирішив перевірити, чи може видалення цих точок даних змінити мою загальну лінійну регресію. Усі мої ІV зберегли своє значення, і жодних очевидних змін не було. $\frac{4}{n}$ $(\frac{4}{149}= .026)$

Чи варто зберігати всі мої дані та використовувати коефіцієнт скорочення 1? Або видалити їх?

outliers cooks-distance

— дисертаційна допомога
джерело

Перевірити Балтаги (2011) Економетрика, 5е. У розділі 8.1 розділу 8.1. Він пропонує ще один захід, що походить від відстані Кука, і він також перевіряє спотворення / впливи впливових протиборців у матриці Var-Covar, які, можливо, вам також знадобляться, оскільки ваші оцінки не сильно змінюються ...

— SirAlex

Ви не повинні видаляти будь-які дані на основі цієї діагностики. Її мета - допомогти вам подумати про них та їх вплив на аналіз.

— whuber

Можливо, я б ішов з вашою оригінальною моделлю з вашим повним набором даних. Як правило, я вважаю, що це полегшує аналіз чутливості. Тобто вони вказують вам на те, що слід перевірити, щоб у вас не було результату лише через щось дурне. У вашому випадку у вас є деякі потенційно впливові моменти, але якщо ви повторно перейдете на модель без них, ви отримаєте фактично таку ж відповідь (принаймні, щодо аспектів, які вас, мабуть, хвилюють). Іншими словами, використовуйте будь-який поріг, який вам подобається - ви повторно встановлюєте модель як чек, а не як "справжню" версію. Якщо ви думаєте, що інші люди будуть достатньо стурбовані потенційними випускниками, ви можете повідомити про обидві моделі. Що б ви сказали, це уздовж,

Ось мої результати. Можна потурбувати, що ця картина з'являється лише через пару незвичайних, але дуже впливових спостережень. Це результати тієї ж моделі, але без цих спостережень. Суттєвих відмінностей немає.

Можна також видалити їх і використовувати другу модель як основний результат. Зрештою, перебування з початковим набором даних - це припущення про те, які дані належать в моделі стільки ж, скільки і з підмножиною. Але люди, ймовірно, дуже скептично ставляться до ваших повідомлених результатів, оскільки психологічно хтось занадто легко переконати себе, без будь-якого фактичного корупційного наміру, піти з набором пост-хок-настроїв (таких як відкидання деяких спостережень), що дає їм результат, який вони найбільше очікували побачити. Завжди використовуючи повний набір даних, ви перешкоджаєте цій можливості і запевняєте людей (скажімо, рецензентів), що це не те, що відбувається у вашому проекті.

Інша проблема тут полягає в тому, що люди в кінцевому підсумку " переслідують міхур ". Коли ви відмовляєтеся від потенційних людей, що перебувають у віці, і повторно запускаєте свою модель, ви отримуєте результати, які показують нові, різні спостереження як потенційні люди. Скільки ітерацій ви повинні пройти? Стандартна відповідь на це полягає в тому, що ви повинні залишатися з оригінальним повним набором даних і замість цього виконувати надійну регресію . Знову ж таки, це можна зрозуміти як аналіз чутливості.

— gung - Відновити Моніку
джерело