Впливовий залишковий та інший

По-перше, я повинен зазначити, що шукав відповідь на цьому сайті. Я або не знайшов запитання, яке відповіло на моє запитання, або мій рівень знань такий низький, що я не зрозумів, що вже прочитав відповідь.

Я навчаюсь на іспиті зі статистики AP. Мені доводиться вивчати лінійну регресію, і одна з тем - залишки. У мене є копія Вступу до статистики та аналізу даних на сторінці 253, в якій йдеться.

Незвичайні точки в наборі даних двовимірний є ті , які падають від більшості інших точок в діаграмі розсіювання або в напрямку або напрямку $x$ $y$

Спостереження потенційно є впливовим спостереженням, якщо воно має значення яке знаходиться далеко від решти даних (відокремлене від решти даних у напрямку ). Щоб визначити, чи спостереження насправді впливає, ми оцінюємо, чи має вилучення цього спостереження великий вплив на значення схилу чи перехоплення лінії найменшого квадрата. $x$ $x$

Спостереження є стороннім, якщо воно має великий залишок. Зовнішні спостереження падають далеко від лінії найменшого квадрата в напрямку . $y$

Stattreck.com зазначає чотири способи визначення відхилення від залишків:

Точки даних, які сильно розходяться від загальної картини, називаються вибухами. Існує чотири способи, які можна вважати точкою даних як позабіржову.

Це може мати надзвичайне значення X порівняно з іншими точками даних.

Це може мати екстремальне значення Y порівняно з іншими точками даних.

Він може мати крайні значення X та Y.

Він може бути віддалений від решти даних, навіть без крайніх значень X або Y.

Ці два джерела, здається, конфліктують між собою. Хтось міг допомогти прояснити мою плутанину. Крім того, як можна визначити крайність. Статистика AP застосовує правило, якщо точка даних знаходиться за межами (Q1-1.5IQR, Q3 + 1.5IQR), це не більше. Я не знаю, як застосувати це лише від графіка до залишків.

regression outliers residuals

— MaoYiyi
джерело

Відповіді:

На сайті stattrek, схоже, є набагато кращий опис людей, що переживають та впливають, ніж ваш підручник, але ви цитували лише короткий уривок, який може ввести в оману. У мене немає цієї конкретної книги, тому я не можу розглянути її в контексті. Майте на увазі, що уривок підручника, який ви цитували, говорить "потенційно". Це не винятково. Маючи на увазі ці моменти, stattrek і ваша книга не обов'язково не згодні. Але здається, що ваша книга вводить в оману в тому сенсі, що з неї випливає (з цього короткого уривку), що єдиною різницею між випускниками та впливовими моментами є те, чи вони відхиляються на осі x або y. Це неправильно.

"Правило" для людей, що вижили, змінюється залежно від контексту. Правило, яке ви цитуєте, - це лише велике правило і так, насправді не призначене для регресії. Є кілька способів його використання. Візуалізувати це може бути простіше, якщо уявити кілька y-значень на кожному x та вивчити залишки. Типові приклади регресії підручників занадто прості, щоб побачити, як може діяти таке правило, і в більшості реальних випадків воно є марним. Сподіваємось, у реальному житті ви збираєте набагато більше даних. Якщо необхідно, щоб ви могли застосовувати правило кількісного значення для випускників до проблеми регресії, вони повинні надавати дані, для яких це доцільно.

— Джон
джерело

Дякую за відповідь, мені стає просто прикро, що різні книги намагаються викласти ці правила, не кажучи, що це чесно залежить від даних, як ви говорите.

— MaoYiyi

Власне, я це також неправильно заявив ... це залежить від теорії, методу та даних ... всього дослідження.

— Іоанн

$X(X'X)^{-1}X'$

Вплив - це функція дизайнерських точок (значень X), як зазначено у вашому підручнику.

Зауважте, що вплив - це сила. У розробленому експерименті ви хочете впливових значень X, припускаючи, що можете точно виміряти відповідне значення Y. Таким чином ви отримуєте більше ударів за долар.

Для мене, в основному, помилка - це помилка - тобто спостереження, яке не відповідає тій самій моделі, що й решта даних. Це може статися через помилку збору даних або через те, що конкретний предмет був певним чином незвичним.

Мені не дуже подобається, що stattrek визначає грубість з кількох причин. Регресія не симетрична в Y і X. Y моделюється як випадкова величина, а X вважається фіксованою і відомою. Дивацтво у Y-х років не те саме, що дивності у X-х. Вплив та стаж означають різні речі. Вплив при множинній регресії не виявляється при перегляді залишкових ділянок. Хороший опис випадків та впливу для одного випадку змінної повинен налаштувати вас і на розуміння кількох випадків.

Мені ще більше не подобається ваш підручник із причин, які наводив Джон.

Підсумок, впливові недоброзичливці небезпечні. Їх потрібно уважно вивчити і вирішити.

— Плацидії
джерело

Ваша неприязнь до пояснення регресії stattrek є доцільною, якщо ви виходите з фону, де справжні експерименти є нормою. Усі ваші причини існують там. Але якщо ви перебуваєте з передісторії, де квазіекспериментальні конструкції зустрічаються частіше, то сайт stattrek має більше актуальності. У цих випадках і x, і значення часто є лише випадковими вибірками.

— Джон

@John, як щодо того, наскільки хочете скласти іспит зі статистики AP? Що таке квазіекспериментальна конструкція? Це використовувати таблицю випадкових чисел для моделювання?

— MaoYiyi

Я нічого не знаю про іспит зі статистики AP. Справжні експерименти - це ті, де ви маніпулюєте змінною предиктора та створюєте групи для перевірки декількох гіпотез, контрольних та експериментальних груп тощо. Квазіекспериментальні конструкції - це майже все інше, що схоже на експеримент. Отже, уявіть собі регресію, де значення x - це вага, а значення y - деякий спортивний навик. Ви не маніпулюєте ні однією змінною, а випадково вибираєте обидві. Отже, критики Плацідії до статитрека цілком справедливі для справжніх експериментів, але не стільки для квазі.

— Іван

@John ... Я родом з фону, де розроблені експерименти розглядаються як золотий стандарт. На практиці я знаю, що X і Y часто є випадковими вибірками, що задає питання, чому використовується регресія, а не якась форма прихованого змінного аналізу.

— Placidia

Коли у вас є лише дві змінні ... :) Іноді у вас є добра теорія, яка дозволяє запропонувати одне, що пророкує інше, наприклад, висота та ймовірність потрапляння в НБА ... обидва випадкові вибірки. У випадках з однією або кількома (особливо некорельованими) регресія лінійних відносин є хорошою.

— Іван