Як зрозуміти стандартизований залишковий аналіз в регресійному аналізі?


9

Відповідно до регресійного аналізу за прикладом , залишковим є різниця між реакцією та передбачуваним значенням, тоді говорять, що кожен залишок має різну дисперсію, тому нам потрібно враховувати стандартизовані залишки.

Але дисперсія призначена для групи значень, як може мати одне значення дисперсія?


2
Це допоможе цитувати підручник безпосередньо або (якщо він доступний в Інтернеті), надати посилання на нього. Багато чого може загубитися, якщо навіть одне слово виведено з ладу чи поза контекстом. (Наприклад, залишки зазвичай визначаються як різниця між прогнозуванням та відповіддю, а не навпаки.)
whuber

Одиничні випадкові величини мають відхилення. Залишки є випадковими змінними - вони є функціями даних. Отже, одиночні залишки (стандартизовані чи ні) мають відхилення.
гість

#whuber Підручник - "Regression.Analysis.by.Example", стор., 89. У ньому обговорювались види залишків. звичайний залишковий - прогнозування відповіді. @guest "Одиничні випадкові змінні мають відхилення", це те, що я не розумію, змінні є властивістю для вибірки, чи не так? чому одиничне значення в вибірці (наприклад, залишкове) має відмінність?
ccshao

Чи є в книзі автор ...? Зазвичай це полегшує пошук. Я думаю, що ви отримуєте зразки дисперсії та дисперсії в популяції. Залишок не відомий до проведення експерименту. Відповідь є випадковою і так само є залишковою, оскільки є функцією відповіді. Коли ми говоримо про дисперсію залишкової, ми говоримо про дисперсію основної випадкової величини.
MånsT

Вибачте за незручності, автори - SAMPRIT CHATTEFUEE та ALI S. HADI, Регресійний аналіз за прикладом, четверте видання.
ccshao

Відповіді:


9

Я б сказав, що індивідуальне число (наприклад, залишкове), яке було результатом випадкового виведення з розподілу ймовірностей, - це реалізоване значення , а не випадкова величина . Так само я б сказав, що безлічN залишки, обчислені за вашими даними та відповідною моделлю е=у-у^, - це набір реалізованих значень. Цей набір чисел може бути вільно концептуалізований як незалежний малюнок від базового розподілуϵ ~ N(мк,σ2). (На жаль, тут є кілька додаткових складностей. Наприклад, у вас насправді немаєN незалежні відомості, тому що залишки, е, повинен відповідати двом умовам: еi=0, і хiеi=0.)

Тепер, враховуючи деякий набір номерів, будь то залишки чи будь-що інше, це, безумовно, правда, що вони мають дисперсію, (еi-е¯)2/N, але це нецікаво. Те, що нас хвилює, - це можливість сказати щось про процес формування даних (наприклад, оцінити дисперсію розподілу населення). Використовуючи попередню формулу, ми могли б дати наближення, замінившиNз залишковими ступенями свободи, але це може бути не гарним наближенням. Це тема, яка може отримати дуже складну ситуацію дуже швидко, але декількома можливими причинами може бути гетеросцедастичність (тобто те, що дисперсія популяції відрізняється на різних рівняхх), А також наявність викидів (тобто, що даний залишковий втягується з іншого населення цілком). Майже напевно, на практиці ви не зможете оцінити дисперсію сукупності, з якої було побудовано чужих людей, але, тим не менш, теоретично це має відмінність. Я підозрюю, що щось у цьому сенсі є авторами, однак я мушу зазначити, що я не читав цієї книги.

Оновлення: Перечитавши питання, я підозрюю, що цитата може посилатися на спосіб "х-значення точки впливає на встановлену регресійну лінію, і, таким чином, на значення залишку, пов'язаного з цією точкою. Ключова ідея, яку можна зрозуміти тут, - це важелі . Я обговорюю ці теми у своїй відповіді тут: Інтерпретація plot.lm () .


1
Дякую! Позиція - це те, чого я раніше не розумію. Немає або мало ефекту регресії для даних, які мають х близький до avg (x), тому велика дисперсія.
ccshao
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.