Як читати графіки відстані Кука?


40

Хтось знає, як опрацювати, чи бали 7, 16 та 29 є впливовими пунктами чи ні? Я десь читав, що оскільки відстань Кука нижча за 1, вони не є. Чи правий я?

введіть тут опис зображення


1
Існують різні думки. Деякі з них відносяться до кількості спостережень або до кількості параметрів. Вони накреслені на веб-сайті en.wikipedia.org/wiki/… .
whuber

@whuber Дякую Це завжди сіра зона під час дослідження даних для мене. Точка 16 даних вище масово впливає на результати моделей, тим самим збільшуючи помилки типу I.
Platypezid

2
Можна стверджувати, що він також збільшує помилки "типу III", які (загалом і неофіційно) є помилками, пов'язаними з непридатністю базової моделі ймовірностей.
whuber

@whuber так, дуже правда!
Platypezid

Відповіді:


43

Деякі тексти говорять про те, що точки, для яких відстань Кука перевищує 1, слід вважати впливовими. Інші тексти дають поріг або , де - кількість спостережень, а - кількість пояснювальних змінних. У вашому випадку остання формула повинна мати поріг близько 0,1.4 / ( N - k - 1 ) N k4/N4/(N-к-1)Nк

Джон Фокс (1) у своїй брошурі про регресійну діагностику є досить обережним, коли йдеться про визначення числових порогів. Він радить використовувати графіку та більш детально вивчити точки зі "значеннями D, які значно перевищують інші". За словами Фокса, пороги слід просто використовувати для покращення графічних дисплеїв.

У вашому випадку спостереження 7 та 16 можна вважати впливовими. Ну, я хоч би придивився до них уважніше. Спостереження 29 суттєво не відрізняється від кількох інших спостережень.


(1) Лисиця, Джон. (1991). Регресійна діагностика: вступ . Публікації шавлії.


9
+1 Очистити резюме. Я хотів би додати , що впливові випадки зазвичай не є проблемою , коли їх видалення з набору даних буде залишити параметр оцінки по суті без змін: ті , які ми турбуватися про ті , чия присутність на насправді це змінити результати.
whuber

1
@lejohn Дуже вдячний за вашу відповідь. Whuber вірна відмінна ясність у вашій відповіді. Це дуже інформативно. Я можу запропонувати вам виділити Фокс та ваші думки на сторінці вікіпедії!
Platypezid

29

кк+1β0β

Тут є ще один момент. У спостережувальних дослідженнях часто важко провести рівномірну вибірку по всьому простору прогнозів, і у вас може бути лише кілька балів у даній області. Такі точки можуть відрізнятися від решти. Маючи декілька виразних випадків, можна викликати неприємні сумніви, але заслуговуйте значної думки перед тим, як звільнити людей, що втратили свій досвід. Можливо, законно існує взаємодія між передбачувачами, або система може зміститися по-різному, коли значення предиктора стануть крайніми. Крім того, вони можуть допомогти вам розв'язати наслідки колінарних прогнозів. Впливові моменти можуть стати благом у маскуванні.


6
+1 "Відстань Кука, мабуть, для вас важливіша, якщо ви робите прогнозне моделювання, тоді як dfbeta важливіше для пояснювального моделювання": це дуже корисна порада.
Енн З.

Привіт - цікава дискусія. Але чи не може бути раціональним інтегрувати фіктивну змінну для вимірювання ефекту, наприклад, спостереження 16?
Пантера

@Pantera Я видалив 16 і порівняв моделі до і після
опущення

Привіт - якщо ви видалите спостереження, ви повинні переконатися, що у вас є "добрий" аргумент, щоб зробити це, наприклад, що спостереження неправильно виміряно. Якщо ми викинемо спостереження, оскільки вони просто створюють певні статистичні проблеми, то ми близькі до пошуку даних.
Пантера
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.