По-перше, я повинен зазначити, що шукав відповідь на цьому сайті. Я або не знайшов запитання, яке відповіло на моє запитання, або мій рівень знань такий низький, що я не зрозумів, що вже прочитав відповідь.
Я навчаюсь на іспиті зі статистики AP. Мені доводиться вивчати лінійну регресію, і одна з тем - залишки. У мене є копія Вступу до статистики та аналізу даних на сторінці 253, в якій йдеться.
Незвичайні точки в наборі даних двовимірний є ті , які падають від більшості інших точок в діаграмі розсіювання або в напрямку або у напрямку
Спостереження потенційно є впливовим спостереженням, якщо воно має значення яке знаходиться далеко від решти даних (відокремлене від решти даних у напрямку x ). Щоб визначити, чи спостереження насправді впливає, ми оцінюємо, чи має вилучення цього спостереження великий вплив на значення схилу чи перехоплення лінії найменшого квадрата.
Спостереження є стороннім, якщо воно має великий залишок. Зовнішні спостереження падають далеко від лінії найменшого квадрата в напрямку .
Stattreck.com зазначає чотири способи визначення відхилення від залишків:
Точки даних, які сильно розходяться від загальної картини, називаються вибухами. Існує чотири способи, які можна вважати точкою даних як позабіржову.
- Це може мати надзвичайне значення X порівняно з іншими точками даних.
- Це може мати екстремальне значення Y порівняно з іншими точками даних.
- Він може мати крайні значення X та Y.
- Він може бути віддалений від решти даних, навіть без крайніх значень X або Y.
Ці два джерела, здається, конфліктують між собою. Хтось міг допомогти прояснити мою плутанину. Крім того, як можна визначити крайність. Статистика AP застосовує правило, якщо точка даних знаходиться за межами (Q1-1.5IQR, Q3 + 1.5IQR), це не більше. Я не знаю, як застосувати це лише від графіка до залишків.