Точне значення та порівняння між впливовою точкою, високою точкою важеля та іншими?


15

З Вікіпедії

Впливові спостереження - це ті спостереження, які мають відносно великий вплив на прогнози регресійної моделі.

З Вікіпедії

Отримані позитивні точки - це спостереження, якщо такі є, зроблені при екстремальних або зовнішніх значеннях незалежних змінних, так що відсутність сусідніх спостережень означає, що відповідна модель регресії буде проходити близько до цього конкретного спостереження.

Чому наступне порівняння з Вікіпедії

Незважаючи на те, що впливова точка , як правило, має високі важелі , висока позичальна точка не обов'язково є впливовою точкою .


2
Відповіді нижче хороші. Також може допомогти прочитати мою відповідь тут: Інтерпретація plot.lm () .
gung - Відновити Моніку

Відповіді:


13

Уявіть будь-яку лінію регресії, пристосовану до деяких даних.

Тепер уявіть собі додаткову точку даних, зовнішню деяку відстань від основного тіла даних, але та, яка лежить десь уздовж цієї лінії регресії.

Якби лінійку регресії було б переобладнано, коефіцієнти не змінювалися б. І навпаки, вилучення додаткової форми матиме нульовий вплив на коефіцієнти.

Таким чином, на зовнішню сторону чи точку важеля мав би нульовий вплив, якби він цілком відповідав решті даних та моделі, що передбачає відпочинок.

Для "рядка" за бажанням прочитайте "площину" або "гіперплан", але тут достатньо найпростішого прикладу двох змінних та діаграми розсіяння.

Однак, як ви любите визначення - часто, здається, прагнуть занадто багато читати в них - ось моє улюблене визначення людей, що переживають:

"Випускники - це вибіркові значення, які викликають здивування стосовно більшості вибірки" (WN Venables і BD Ripley. 2002. Сучасна прикладна статистика для S. New York: Springer, с.119).

Найважливіше, що сюрприз є у свідомості того, хто дивиться, і залежить від якоїсь мовчазної чи явної моделі даних. Можливо, існує інша модель, за якою анієєр зовсім не дивує, скажімо, чи дані справді логічні чи гамма, а не звичайні.

PS Я не думаю, що у важельних позицій обов'язково відсутні суміжні спостереження. Наприклад, вони можуть виникати попарно.


Спасибі! Чи однакові поняття, які мають точки з високим левереджем? Зауважте, що "Посібник зазвичай визначається як діагональ капелюшкової матриці" від en.wikipedia.org/wiki/Partial_leverage
Тім

1
Ні; ви не показали нам визначення "outlier", але випливає з визначення точок важеля, що вони не повинні бути пережилими сенсу Венеблса і Ріплі. (Я рекомендую спробувати відучити себе від Вікіпедії.) Дивіться також відповідь @ Гаеля.
Нік Кокс

1
"Найважливіше, що сюрприз має на увазі очікувача і залежить від якоїсь мовчазної чи явної моделі даних. Можливо, є ще одна модель, згідно з якою екслієр зовсім не дивно, скажімо, якщо дані справді логічні чи гамма, а не нормально ». Тож люди, що визначають формат, визначаються у деякій моделі, тоді як високі позиційні та впливові моменти - ні?
Тім

1
Коли я читав, Венеблс і Ріплі були дотепними, роблячи розумну точку, і підривали наївну думку про те, що люди, що живуть, можуть бути визначені точними формальними твердженнями. Але інші способи лікування можна знайти в різних стилях. Навпаки, важелі та вплив можна визначити формально з точки зору способів їх вимірювання. Два стилі використання термінології насправді не узгоджуються. Для кращого уявлення про те, що таке люди, а чи ні, досвід фактичного аналізу даних вчить більше, ніж читання записів енциклопедії.
Нік Кокс

Гаель посилався на коментар 29 липня 2013 року зараз використовує ідентифікатор @Gala. На момент написання відповіді є лише одна відповідь, але це може змінитися.
Нік Кокс

20

Неважко проілюструвати, як високий показник важеля може не впливати у випадку простої лінійної моделі:

Високий важіль, але не надто впливовий момент

Синя лінія - це регресійна лінія, заснована на всіх даних, червона лінія ігнорує точку вгорі правої частини ділянки.

Ця точка відповідає визначенню точки високого важеля, яку ви тільки що надали, оскільки вона далека від решти даних. Через це лінія регресії (синя) повинна проходити близько до неї. Але оскільки його позиція значною мірою відповідає шаблону, який спостерігається в решті даних, інша модель передбачає це дуже добре (тобто червона лінія вже проходить близько до неї у будь-якому випадку), і тому вона не має особливого впливу.

Порівняйте це з наступним розсіювачем:

Високий вплив вагомої точки

Тут справа на ділянці все ще є високою точкою важеля, але цього разу вона не дуже відповідає шаблону, який спостерігається в решті даних. Синя лінія (лінійна відповідність на основі всіх даних) проходить дуже близько, але червона лінія - ні. Включення або виключення цього пункту суттєво змінює оцінку параметрів: Це має великий вплив.

Зауважте, що наведені вами визначення та приклади, які я наводив, можуть означати, що високі важелі / впливові моменти в деякому сенсі є однозначними "переживцями" і що пристосована лінія регресії буде проходити близько до точок з найбільшим впливом, але це потрібно не бути так.

Прихована дуже впливова точка

У цьому останньому прикладі спостереження в нижньому правому куті має (відносно) великий вплив на прилягання моделі (знову видно через різницю між червоною та синьою лініями), але вона все ще здається далеко від лінії регресії при цьому не можна виявити в одноманітних розподілах (представлених тут "килимами" уздовж осей).


Спасибі! Чи відповідає точка високого важеля, яку ми тут використовуємо, "плече зазвичай визначається як діагональ матриці капелюхів" від en.wikipedia.org/wiki/Partial_leverage ?
Тім

Відмінне пояснення. Будемо дуже вдячні, якщо ви також надасте дані для всіх трьох випадків. Спасибі
MYaseen208
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.